Escolar Documentos
Profissional Documentos
Cultura Documentos
INSTITUTO DE INFORMTICA
PROGRAMA DE PS-GRADUAO EM COMPUTAO
AGRADECIMENTOS
Este trabalho deve muito a algumas pessoas e instituies que eu gostaria de
agradecer especialmente:
Ao meu orientador, Prof. Dr. Paulo Martins Engel, por todo o estmulo,
compreenso e auxlio realizao deste trabalho.
Ao professores do Instituto de Informtica por terem contribudo com a minha
formao.
Aos professores do Centro de Biotecnologia que, acima de tudo, me mostraram a
cincia sob uma perspectiva diferente e fascinante.
Aos grandes amigos que fiz em todo o perodo de minha formao no instituto de
informtica.
minha famlia, por todo apoio, carinho, amor e por suportarem pacientemente
minha luta durante todos estes ltimos anos.
Ao Exrcito Brasileiro, especialmente ao 1 CTA, que teve papel fundamental no
suporte financeiro realizao deste meu sonho.
Obrigado.
SUMRIO
AGRADECIMENTOS ......................................................................................... 3
LISTA DE ABREVIATURAS E SIGLAS ............................................................ 6
LISTA DE FIGURAS .......................................................................................... 7
LISTA DE TABELAS ......................................................................................... 9
RESUMO.......................................................................................................... 10
ABSTRACT...................................................................................................... 11
1 INTRODUO ........................................................................................... 12
1.1
1.2
1.3
Panorama atual.................................................................................................... 49
ACI
ADL
AG
Algoritmos Genticos
BP
Backpropagation
CBR
CCS
DCBD
EB
Exabyte
DAM
EQM
GLS
IA
Inteligncia Artificial
kNN
MB
Megabyte
MD
Minerao de Dados
MLP
OLS
PLI
RDD
RGS
RNAs
ROC
SSC
TLFN
LISTA DE FIGURAS
Figura 2.1: Hierarquia de contedo da mente humana................................................... 17
Figura 2.2: Relao dos dados com a compreenso e a conectividade .......................... 18
Figura 2.3: Relao entre aprendizado e seu valor......................................................... 21
Figura 2.4: O modelo clssico do processo de DCBD ................................................... 22
Figura 2.5: O espao ROC.............................................................................................. 35
Figura 2.6: Curva Lift ..................................................................................................... 35
Figura 3.1: O neurnio biolgico ................................................................................... 39
Figura 3.2: O neurnio artificial ..................................................................................... 40
Figura 3.3: Funes de ativao ..................................................................................... 42
Figura 3.4: Exemplo tpico de uma RNA multicamada ................................................. 45
Figura 4.1: Taxa de erro em funo da dimensionalidade.............................................. 50
Figura 4.2: Fenmeno do Pico........................................................................................ 51
Figura 4.3: Abordagem de filtros ................................................................................... 67
Figura 4.4: Abordagem de wrappers.............................................................................. 68
Figura 4.5: Abordagem embutida................................................................................... 69
Figura 5.1: RNA do tipo MLP........................................................................................ 73
Figura 5.2: Seqncia de atividades do modelo neural de aprimoramento progressivo 76
Figura 5.3: Seqncia das atividades que compem o clculo do melhor subconjunto de
caractersticas.................................................................................................................. 77
Figura 5.4: Escores para cada uma das 20 caractersticas de entrada............................. 80
Figura 5.5: Escores para cada uma das 50 caractersticas de entrada............................. 81
Figura 5.6: Predio dos valores da srie temporal usando 48 caractersticas de entrada
........................................................................................................................................ 85
Figura 5.7: Escores das caractersticas de entrada.......................................................... 85
Figura 5.8: Predio dos valores da srie temporal usando o conjunto reduzido de
caractersticas de entrada ................................................................................................ 86
Figura 5.9: Resultado desejado x resultado obtido de macroporosidade para cada uma
das 48 amostras por meio da regresso com 60 entradas na rede................................... 88
Figura 5.10: Erro de predio de macroporosidade para cada uma das 48 amostras
usando 60 caractersticas como entrada da rede............................................................. 88
Figura 5.11: Pesos sinpticos de cada uma das 60 caractersticas da camada de entrada
usados para predio de macroporosidade. .................................................................... 89
Figura 5.12: Resultado desejado x resultado obtido de macroporosidade por meio da
regresso com 3 entradas na rede. .................................................................................. 91
Figura 5.13: Erros de predio de macroporosidade com 3 e 60 caractersticas de
entrada. ........................................................................................................................... 91
Figura 5.14: Resultado desejado x resultado obtido de porosidade petrofsica por meio
da regresso com 70 entradas na rede. ........................................................................... 92
Figura 5.15: Erro de predio de porosidade petrofsica para cada um das 48 amostras
usando 70 caractersticas como entrada da rede............................................................. 93
Figura 5.16: Pesos sinpticos de cada uma das 70 caractersticas da camada de entrada
usadas para predio de porosidade petrofsica.............................................................. 93
Figura 5.17: Resultado desejado x resultado obtido de porosidade petrofsica por meio
da regresso com 2 entradas na rede. ............................................................................. 95
Figura 5.18: Erros de predio de porosidade petrofsica com 2 e 70 caractersticas de
entrada. ........................................................................................................................... 96
Figura 5.19: Escores das 39 caractersticas de entrada................................................... 97
Figura 5.20: Desempenho relativo dos modelos com diferentes quantidades de
caractersticas.................................................................................................................. 97
LISTA DE TABELAS
Tabela 2.1: Erro de classificao binria........................................................................ 33
Tabela 2.2: Matriz de confuso ...................................................................................... 34
Tabela 4.1: Exemplos de tcnicas de extrao de caractersticas................................... 54
Tabela 5.1: Distncia euclidiana entre os valores ideais de escore e os valores obtidos
com cada uma das abordagens utilizadas no problema do XOR.................................... 79
Tabela 5.2: Distncia euclidiana entre os valores ideais de escore e os valores obtidos
com cada uma das abordagens utilizadas no problema do SIN...................................... 82
Tabela 5.3: Matriz de regresso criada com o vetor de entrada ..................................... 83
Tabela 5.4: Caractersticas mais importantes para a predio da macroporosidade ...... 89
Tabela 5.5: Variao da taxa de erro em funo do nmero de caractersticas de entrada
........................................................................................................................................ 90
Tabela 5.6: Caractersticas mais importantes para a predio da porosidade petrofsica94
Tabela 5.7: Variao da taxa de erro em funo do nmero de caractersticas de entrada
........................................................................................................................................ 95
Tabela 5.8: Comparao de 2 modelos gerados com a abordagem proposta e modelo
original com todas as caractersticas. ............................................................................. 98
RESUMO
Nas ltimas dcadas, avanos em tecnologias de gerao, coleta e armazenamento
de dados tm contribudo para aumentar o tamanho dos bancos de dados nas diversas
reas de conhecimento humano. Este aumento verifica-se no somente em relao
quantidade de amostras de dados, mas principalmente em relao quantidade de
caractersticas descrevendo cada amostra. A adio de caractersticas causa acrscimo
de dimenses no espao matemtico, conduzindo ao crescimento exponencial do
hipervolume dos dados, problema denominado maldio da dimensionalidade. A
maldio da dimensionalidade tem sido um problema rotineiro para cientistas que, a fim
de compreender e explicar determinados fenmenos, tm se deparado com a
necessidade de encontrar estruturas significativas ocultas, de baixa dimenso, dentro de
dados de alta dimenso. Este processo denomina-se reduo de dimensionalidade dos
dados (RDD). Do ponto de vista computacional, a conseqncia natural da RDD uma
diminuio do espao de busca de hipteses, melhorando o desempenho e simplificando
os resultados da modelagem de conhecimento em sistemas autnomos de aprendizado.
Dentre as tcnicas utilizadas atualmente em sistemas autnomos de aprendizado, as
redes neurais artificiais (RNAs) tm se tornado particularmente atrativas para
modelagem de sistemas complexos, principalmente quando a modelagem difcil ou
quando a dinmica do sistema no permite o controle on-line. Apesar de serem uma
poderosa tcnica, as RNAs tm seu desempenho afetado pela maldio da
dimensionalidade. Quando a dimenso do espao de entradas alta, as RNAs podem
utilizar boa parte de seus recursos para representar pores irrelevantes do espao de
busca, dificultando o aprendizado. Embora as RNAs, assim como outras tcnicas de
aprendizado de mquina, consigam identificar caractersticas mais informativas para um
processo de modelagem, a utilizao de tcnicas de RDD frequentemente melhora os
resultados do processo de aprendizado.
Este trabalho prope um wrapper que implementa um modelo neural de
aprimoramento progressivo para RDD em sistemas autnomos de aprendizado
supervisionado visando otimizar o processo de modelagem. Para validar o modelo
neural de aprimoramento progressivo, foram realizados experimentos com bancos de
dados privados e de repositrios pblicos de diferentes domnios de conhecimento. A
capacidade de generalizao dos modelos criados avaliada por meio de tcnicas de
validao cruzada. Os resultados obtidos demonstram que o modelo neural de
aprimoramento progressivo consegue identificar caractersticas mais informativas,
permitindo a RDD, e tornando possvel criar modelos mais simples e mais precisos. A
implementao da abordagem e os experimentos foram realizados no ambiente Matlab,
utilizando o toolbox de RNAs.
Palavras-Chave: Heurstica, wrapper, reduo de dimensionalidade, seleo de
caractersticas, modelagem neural, aprimoramento progressivo.
ABSTRACT
In recent decades, advances on data generation, collection and storing technologies
have contributed to increase databases size in different knowledge areas. This increase
is seen not only regarding samples amount, but mainly regarding dimensionality, i.e. the
amount of features describing each sample. Features adding causes dimension
increasing in mathematical space, leading to an exponential growth of data
hypervolume. This problem is called the curse of dimensionality. The curse of
dimensionality has been a routine problem for scientists, that in order to understand and
explain some phenomena, have faced with the demand to find meaningful low
dimensional structures hidden in high dimensional search spaces. This process is called
data dimensionality reduction (DDR). From computational viewpoint, DDR natural
consequence is a reduction of hypothesis search space, improving performance and
simplifying the knowledge modeling results in autonomous learning systems.
Among currently used techniques in autonomous learning systems, artificial neural
networks (ANNs) have becoming particularly attractive to model complex systems,
when modeling is hard or when system dynamics does not allow on-line control.
Despite ANN being a powerful tool, their performance is affected by the curse of
dimensionality. When input space dimension is high, ANNs can use a significant part of
their resources to represent irrelevant parts of input space making learning process
harder. Although ANNs, and other machine learning techniques, can identify more
informative features for a modeling process, DDR techniques often improve learning
results.
This thesis proposes a wrapper which implements a Progressive Enhancement
Neural Model to DDR in supervised autonomous learning systems in order to optimize
the modeling process. To validate the proposed approach, experiments were performed
with private and public databases, from different knowledge domains. The
generalization ability of developed models is evaluated by means of cross validation
techniques. Obtained results demonstrate that the proposed approach can identify more
informative features, allowing DDR, and becoming possible to create simpler and more
accurate models. The implementation of the proposed approach and related experiments
were performed in Matlab Environment, using ANNs toolbox.
Keywords: Heuristics, wrapper, dimensionality reduction, feature selection, neural
modeling.
1 INTRODUO
13
14
de
de
de
de
15
16
17
Haver mais mudanas nas prximas 3 dcadas que nos ltimos 3 sculos.
18
19
20
acordo com sua similaridade. Desta forma, a idia agrupar as amostras de forma a
minimizar a distncia intra-grupos e maximizar a distncia inter-grupos.
No aprendizado por reforo, o sistema de aprendizado no sabe qual a sada
desejada para cada conjunto de entradas, sabendo apenas se a sada obtida est correta
ou no. Porm, o sistema recebe apenas uma punio ou recompensa do ambiente para
cada sada predita. Pelo fato do algoritmo receber uma resposta para cada uma de suas
aes, alguns autores consideram o aprendizado por reforo um caso especial de
aprendizado supervisionado (MITRA e ACHARYA, 2003).
No aprendizado por programao em lgica indutiva (PLI) h uma combinao do
aprendizado de mquina indutivo com a programao em lgica. De maneira formal, a
PLI pode ser definida da seguinte forma: tem-se C como um conhecimento prvio do
domnio expresso na forma de um conjunto de predicados, exemplos positivos E+ e
exemplos negativos E-. O objetivo da PLI encontrar uma forma de predicado lgico H,
tal que todos os exemplos em E+ possam ser logicamente derivados de C^H, e nenhum
exemplo em E- possa ser logicamente derivados de C^H. A diferena marcante entre a
PLI e o aprendizado indutivo convencional a utilizao do conhecimento prvio do
domnio.
Dentre estas abordagens de aprendizado apresentadas, o foco deste trabalho foi
definido sobre o aprendizado supervisionado.
2.3.1 Aplicaes de aprendizado de mquina
Devido aos avanos da tecnologia, que tm conduzido a uma constante evoluo das
tecnologias de gerao, coleta e armazenamento de dados, vivenciamos uma sobrecarga
de informao na maioria das reas de conhecimento humano. H diversos domnios do
conhecimento humano em que grandes volumes de dados so coletados e armazenados.
Alguns exemplos incluem: bioinformtica, telecomunicaes, astronomia, climatologia,
computao, economia e geologia (MITRA e ACHARYA, 2003). Pelo fato de as
tcnicas de anlise destes dados no evolurem to rapidamente quanto as tcnicas de
coleta e armazenamento, surge uma importante demanda por ferramentas automticas
para analisar estes dados em tempo aceitvel. Tais ferramentas so o foco de pesquisa
da rea de aprendizado de mquina.
Alm das aplicaes na rea cientfica, a explorao de grandes bancos de dados
comerciais tambm representa um claro interesse econmico. Isto ocorre principalmente
porque a maioria das empresas utiliza computadores para interagir com seus clientes. A
reduo constante do custo de armazenamento contribuiu para que as empresas
passassem a armazenar em banco de dados um histrico das interaes com seus
clientes, criando-se bancos de dados cada vez maiores com um histrico da atividade da
empresa. Este histrico torna-se uma mina com valiosas informaes sobre a
atividade da empresa e pode ser explorado a fim de servir como um poderoso suporte ao
processo de tomada de deciso, permitindo a descoberta de padres de perfis e
tendncias escondidas no banco de dados (CAMARGO e ENGEL, 2002). Quanto mais
a empresa aprende sobre seus dados, maior o valor agregado deste aprendizado, e
maiores so as possibilidades de converter o aprendizado em lucro. Esta idia
representada na figura 2.3.
21
22
23
dados, assim como as decises tomadas nesta etapa so crticas para a qualidade dos
resultados obtidos nas fases subseqentes (MYATT, 2007).
Tarefas bsicas na fase de pr-processamento incluem seleo de dados, integrao,
limpeza, reduo de rudo, deteco de outliers, transformao, e reduo de
dimensionalidade. O algoritmo que ser utilizado na fase de MD influi fortemente nas
tarefas que devem ser executadas no pr-processamento. Como exemplo, pode ser
citado que a maioria das redes neurais necessita que todos os dados sejam numricos,
sendo a tarefa de transformao responsvel por converter dados no numricos em
numricos. Por outro lado, rvores de deciso usualmente necessitam que todos os
dados sejam categricos, de forma que valores numricos devem ser representados de
maneira categrica.
2.4.1.1 Seleo
A primeira tarefa a ser realizada na fase de pr-processamento a seleo dos dados.
Supe-se que os dados j foram coletados de alguma forma e geralmente o responsvel
pelo processo de DCBD no tem nenhuma influncia sobre esta coleta.
Havendo uma quantidade muito grande de dados disponveis, faz-se necessria a
seleo de quais caractersticas e quais registros devero ser utilizados no processo de
MD.
Dentre as atividades realizadas nesta fase esto (YE, 2003):
24
mais dados. Alm disso, deve ter-se sempre em mente que a maior fonte de
rudo a insuficincia de dados. Os problemas gerados por uma quantidade
pequena de dados em relao uma grande quantidade de caractersticas so
discutidos em Bellman (1961).
2.4.1.2 Integrao
possvel antes da execuo do processo de MD seja necessria a integrao de
dados oriundos de vrias fontes diferentes em um nico arquivo. Uma grande
quantidade de problemas pode surgir durante esta integrao. Faz-se necessria a
integrao dos esquemas das diferentes fontes onde podem surgir problemas como:
Identificao de entidades.
Duplicao de caractersticas.
Usar uma constante global, tal como ?, para preencher os valores omitidos.
25
Outliers so valores extremos que esto fora dos limites de um intervalo de dados ou
esto destoando da tendncia dos valores de um determinado atributo. Os outliers
podem ser originados de erros no processo de entrada dos dados, sendo chamados de
outliers invlidos, ou tambm podem representar dados vlidos, sendo chamados de
outliers vlidos. Para outliers invlidos, deve ser feito um esforo para descobrir seu
valor correto. Caso isto no seja possvel, este valor pode ser tratado como um valor
omitido. Outliers vlidos no devem ser descartados, pois representam o
comportamento real do sistema. A existncia de outliers, sejam eles vlidos ou
invlidos, pode ser um fator que prejudica o desempenho dos algoritmos de minerao
de dados tornando os resultados instveis.
Histogramas ou scatter plots bidimensionais so tcnicas utilizadas para deteco de
outliers, porm a abordagem mais simples a definio de limites aceitveis para o
valor da caracterstica. Alm destas tcnicas, a normalizao, que abordada na seo
2.4.1.5, tambm pode diminuir os problemas causados pela existncia de outliers.
2.4.1.5 Transformao
Os dados que sero minerados geralmente no esto em uma forma adequada para
maximizar o desempenho dos algoritmos de minerao. Faz-se necessria ento a
realizao do processo de transformao, onde os dados so transformados ou
consolidados para as fases seguintes. Dentre as tcnicas mais populares utilizadas nesta
fase esto (HAN e KAMBER, 2001):
26
onde j o menor nmero inteiro tal que Max(|v|) < 1. Exemplo: supondo-se
que os valores mximo e mnimo da caracterstica salrio so respectivamente
R$ 9.000 e R$1.000. Para normalizar por uma escala decimal, poderia se dividir
27
28
29
2.4.2.2 Regresso
O processo de regresso semelhante ao processo de classificao, a principal
diferena entre ambos que a classificao lida com valores discretos enquanto a
regresso, com valores contnuos. Como conseqncia disso temos que, atravs do
processo de regresso, possvel ordenar registros individualmente. Por exemplo, se
pelo processo de classificao classificamos registros como 0 ou 1, pelo processo de
regresso possvel classificarmos registros com qualquer valor real entre 0 e 1. Redes
neurais se ajustam muito bem a tarefas de regresso.
2.4.2.3 Predio
O processo de predio tambm semelhante aos processos anteriores exceto pelo
fato de que os registros possuem dados temporais e so classificados de acordo com
alguma predio de comportamento futuro ou predio de valor futuro. Tanto
classificao como regresso podem ser adaptadas para uso em predio atravs dos
exemplos de treinamento onde os valores passados das variveis a serem preditas so
conhecidos, de acordo com os dados histricos para estes exemplos. Os dados histricos
so usados para construir um modelo que explica o comportamento corrente observado.
A tcnica de anlise da cesta de compras, usada para descobrir que itens provavelmente
sero comprados juntos, pode ser adaptada ao modelo de que compras futuras ou aes
tendem a ser tomadas de acordo com os dados correntes. As tcnicas de anlise da cesta
de compras, raciocnio baseado em memria, rvores de deciso e redes neurais podem
ser utilizadas no processo de predio.
2.4.2.4 Regras de associao
A extrao de regras de associao o processo de encontrar padres, associaes,
correlaes ou estruturas causais freqentes entre conjuntos de itens ou objetos em
bancos de dados. Esta tarefa frequentemente aplicada a bancos de dados de transaes
onde se deseja extrair regras denotando que a ocorrncia de um subconjunto de itens
implica a ocorrncia de outro subconjunto, disjunto do primeiro, na mesma transao.
De uma maneira formal, tem-se I = {i1, i2, ..., in} sendo um conjunto de objetos
chamados itens. Tem-se D = {T1, T2, ..., Tm} sendo um conjunto de transaes, onde
cada transao T uma coleo de itens, com T I. Tem-se Ia e Ib sendo conjuntos de
itens. Uma regra de associao um relacionamento na forma Ia Ib, onde Ia I, Ib
I e Ia Ib = . A regra de associao r tem um suporte s, se sr o percentual de
transaes em D que contm Ia Ib, ou seja, sr a probabilidade P(Ia Ib). Uma regra
tem confiana c sobre D, se c o percentual de transaes em D que contm Ia e Ib, ou
seja, c a probabilidade condicional P(Ia | Ib).
Para a gerao de regras de associao o algoritmo mais utilizado o Apriori, porm
j foram propostas diversas outras abordagens derivadas deste algoritmo para executar
esta tarefa (CAMARGO e ENGEL, 2002).
Esta tarefa tambm frequentemente referenciada na literatura como anlise de
cesta de compras e agrupamento por afinidade.
2.4.2.5 Agrupamento por similaridade ou clusterizao
O processo de agrupamento por similaridade consiste em dividir uma populao
heterognea em grupos de objetos similares. Um grupo um conjunto de elementos
30
desta populao com alto nvel de similaridade entre si, e baixo nvel de similaridade
com elementos de outros grupos. Desta forma, o objetivo principal desta tarefa de
minerao de dados atingir duas mtricas: maximizar a similaridade entre elementos
intra-grupo e minimizar de similaridade entre elementos inter-grupos. Estes grupos no
so pr-definidos e tambm no h exemplos assim como ocorre no processo de
classificao. Agrupamento por similaridade pode muitas vezes ser utilizado como
preparao para alguma outra forma de minerao de dados.
De uma maneira mais formal, a tarefa de agrupamento consiste em, dado um nmero
inteiro k, encontrar uma forma de particionar os dados em k grupos c1, c2, ..., ck que
otimize um dado critrio de particionamento.
Para a tarefa de agrupamento, um dos algoritmos mais utilizados o k-means (XU e
WUNSCH, 2009).
2.4.2.6 Descrio
O processo de descrio tem como propsito simplesmente descrever os padres e
tendncias implcitas a algum conjunto de dados a fim de aumentar a nossa
compreenso sobre sistemas, fenmenos ou processos. Um bom processo de descrio
de um padro ou tendncia freqentemente ir sugerir uma explicao para tal padro
ou tendncia.
2.4.3 Avaliao da fase de minerao de dados
Aps a aplicao dos algoritmos de minerao de dados sobre os dados de
treinamento, o passo seguinte a avaliao do modelo criado a fim de verificar sua
qualidade.
A avaliao do modelo uma atividade complexa que exige formas sistemticas de
trabalho. Os algoritmos de minerao de dados frequentemente exigem a configurao
de um conjunto de parmetros, os quais exercem uma influncia determinante nos
resultados obtidos. Diferentes valores dos parmetros geram diferentes modelos. Alm
disso, necessria a aplicao de tcnicas que possam avaliar o desempenho preditivo
do modelo em dados que no foram previamente vistos (OLSON e DELEN, 2008).
2.4.3.1 Particionamento dos dados
Para avaliar como os modelos iro se comportar na predio de dados no vistos,
geralmente o conjunto de dados disponvel dividido em duas partes, sendo uma para
treinar o modelo e outra para avali-lo. Dentre as formas de particionamento, as
principais so as seguintes (BISHOP, 1995):
Holdout
Quando h uma grande quantidade de dados disponvel para o processo de
minerao a avaliao teoricamente simples. Neste caso, geralmente utilizada a
tcnica chamada holdout onde os dados so divididos aleatoriamente em duas parties
independentes e sem sobreposio: uma de treinamento e outra de teste. A partio de
treinamento usada para construir o modelo, e a partio de teste utilizada para
avaliar a capacidade de generalizao do modelo. Em relao ao tamanho das parties,
geralmente a partio de treinamento contm 75% dos dados; e a de teste, 25%. Uma
variao da tcnica holdout a subamostragem aleatria, onde os conjuntos de
treinamento e teste so particionados de maneira aleatria, sendo o procedimento
31
32
avaliar o erro de regresso so: o erro quadrado mdio (EQM) e o desvio absoluto
mdio (DAM).
Tendo-se xi a i-sima entrada, p(xi) o valor predito para a amostra i, yi o valor
real de sada e n a quantidade de amostras, o EQM definido pela seguinte equao:
1
EQM =
n
( p( x ) y )
i
i =1
O DAM, por outro lado, simplesmente dado pelos valores absolutos dos erros
individuais. O DAM obtido atravs da seguinte equao:
DAM =
1
n
| p( x ) y |
i
i =1
Erro de classificao
A tarefa de classificao visa predizer valores categricos de uma varivel
dependente. Uma amostra classificada incorretamente se o valor predito pelo modelo
diferente do valor real da varivel. Por outro lado, se o valor predito igual ao valor
real, a amostra foi classificada corretamente. O desempenho de um modelo preditivo
calculado atravs do nmero de erros e do nmero total de amostras (YE, 2003).
Tendo-se que Em o erro de classificao do modelo, e a quantidade de amostras
classificadas incorretamente e n a quantidade total de amostras, o erro de classificao
do modelo dado pela seguinte equao:
Em =
e
n
Exatido
A exatido de um classificador uma medida complementar ao erro de
classificao. Desta forma, a exatido do modelo dada pela quantidade de amostras
classificadas corretamente divididas pela quantidade total de amostras.
Falsos positivos, falsos negativos e matriz de classificao binria
A classificao de um conjunto de amostras em duas classes a aplicao mais
comum quando se trata de classificao, embora seja possvel aplicar esta tcnica
quando houver um maior conjunto de classes.
Quando a classificao realizada a um problema com duas classes distintas, o
desempenho preditivo do modelo pode ser descrito atravs de uma matriz quadrada de
ordem 2.
A construo desta matriz parte dos seguintes pressupostos: tem-se o rtulo de
classe real Cr+ sendo verdadeiro, e o rtulo de classe real Cr- sendo falso. Tem-se Cp+
como a classe predita verdadeira, e Cp- como a classe predita falsa. H quatro
combinaes possveis, estando as combinaes corretas na diagonal principal da matriz
e as combinaes incorretas na diagonal secundria. Os valores de verdadeiros positivos
(VP) e verdadeiros negativos (VN) correspondem as respostas corretas e os valores de
falsos positivos (FP) e falsos negativos (FN) correspondem as respostas incorretas. A
tabela 2.1 apresenta uma tabela de erro de classificao binria (HAND et al., 2001).
33
Cp -
Cr+
VP
FN
Cr-
FP
VN
VP
VP + FP
revocao =
VP
VP + FN
MedidaF =
2
1
preciso
1
revocao
Sensibilidade e especificidade
So duas mtricas amplamente utilizadas para avaliao de diagnsticos em
medicina. A sensibilidade idntica a revocao e reflete o quanto bom o modelo na
identificao de exemplos positivos (HAND et al., 2001). J a especificidade reflete o
quanto bom o modelo na identificao de exemplos negativos. Sensibilidade e
especificidade so dadas pelas seguintes equaes:
sensibilidade =
VP
VP + FN
especificidade =
VN
VN + FP
34
Matriz de confuso
Como grande parte dos problemas de classificao envolve apenas duas classes, a
tabela 2.1 cobre a maioria dos casos (HAND et al., 2001). Porm, em outros casos, a
quantidade de classes pode ser superior a duas. Desta forma, podem ser criadas matrizes
com ordem maior que 2, de modo que a ordem da matriz seja igual quantidade de
classes do problema. Esta matriz chamada de matriz de confuso ou tabela de
contingncia.
A tabela 2.2 ilustra uma matriz de confuso para um modelo preditivo de quatro
classes, onde Cpx representa a classe predita x, e Cry representa a classe real y. O valor de
cada clula dado por Zi,j, onde i denota a classe real do exemplo e j denota a classe
predita pelo modelo. Para todo Zi,j onde i = j, o exemplo foi corretamente predito.
Tabela 2.2: Matriz de confuso
Cp1
Cp2
Cp3
Cp4
Cr1
Z1,1
Z1,2
Z1,3
Z1,4
Cr2
Z2,1
Z2,2
Z2,3
Z2,4
Cr3
Z3,1
Z3,2
Z3,3
Z3,4
Cr4
Z4,1
Z4,2
Z4,3
Z4,4
Curvas ROC
A teoria das curvas ROC (Receiver Operating Characteristic) originou-se na teoria
de deteco de sinais (HAND et al., 2001). A curva ROC representa a sensibilidade e o
complemento da especificidade em um grfico para um sistema de classificao binrio
cujo limiar de distino entre as duas classes varivel. A anlise deste grfico permite
a identificao dos modelos provavelmente timos e dos modelos sub-timos.
O espao ROC, que definido pelo complemento da especificidade em funo da
sensibilidade, apresenta a relao custo (especificidade) x benefcio (sensibilidade) dos
modelos medida que o limiar alterado. A figura 2.5 apresenta o espao ROC e a
representao de quatro modelos distintos: A, B, C e C.
O modelo ideal estaria representado na coordenada (0,1) do espao ROC, indicando
que todos os exemplos positivos foram encontrados e que nenhum exemplo negativo foi
predito como positivo. A incerteza mxima est representada no espao ROC pela linha
diagonal secundria. Pontos acima da diagonal secundria indicam que o modelo
consegue representar algum nvel de conhecimento a partir dos exemplos, enquanto
pontos abaixo desta diagonal indicam que o modelo ruim.
O modelo representado pelo ponto A mostra os melhores resultados em comparao
com os pontos B e C. O ponto B, que est sobre a diagonal secundria, indica que o
modelo atinge um nvel de 50% de acerto. J o ponto C representa o pior modelo, pois a
maioria de suas decises incorreta. Porm, se todas suas decises forem tomadas ao
contrrio, seria criado um novo modelo C que seria o melhor modelo entre os quatro
modelos gerados.
35
36
37
38
39
40
em torno de 103 a 104 dendritos e, aps o processamento, gera somente uma nica sada.
O fluxo dos impulsos nervosos se d no sentido das setas, conforme figura 3.1.
41
uk = wkj x j
j =1
= (u k + bk )
Onde x1, x2, x3, ..., xn so os sinais de entrada; wk1, wk2, wk3, ..., wkn so os pesos
sinpticos do neurnio k; vk a sada do combinador linear gerada pelos sinais de
entrada; bk o vis; a funo de ativao; e yk o sinal de sada do neurnio
(HAYKIN, 1999).
3.2.1 Funes de ativao
Cada neurnio propaga seu resultado para outros neurnios conectados a sua sada.
Porm, este resultado, antes de ser repassado para outros neurnios, tem seu valor
influenciado pela chamada funo de ativao.
Enquanto a funo de propagao de um neurnio artificial, que representa corpo da
clula neural biolgica, modelado por uma funo linear, a funo de ativao, que
representa a sua sinapse, pode ser de natureza linear ou no linear. O tipo de funo de
ativao depende do problema que o neurnio est tentando resolver. Em problemas
lineares so utilizadas funes de ativao lineares.
Em problemas que possuam no linearidade, a sinapse do neurnio pode ser
modelada por uma funo de inibio no linear a fim de limitar a amplitude do sinal
processado pela funo de propagao. Desta forma, a utilizao de funes de ativao
nos neurnios ocultos de uma rede neural artificial necessria para inserir a no
linearidade na rede.
A funo de ativao, denotada por (yk), na figura 3.2 define o valor de sada yk de
um neurnio.
Os tipos bsicos de funes de ativao so:
(v ) =
1
0
se v 0
se v < 0
Funo linear: a sada de uma funo de ativao linear igual a sua entrada,
conforme apresentado na figura 3.3 b), e sua funo de sada dada por:
(v ) = v
se v < 0
se 0 v 1
se v > 1
(v ) = v
42
(v ) =
1
1 + exp( v )
(v ) =
2
1
(1 + exp( 2v ) )
a)
b)
c)
d)
e)
Figura 3.3: Funes de ativao
43
Quantidade de camadas:
o Camada nica: em redes de camada nica existe somente um nodo
entre qualquer entrada e qualquer sada da rede neural.
o Mltiplas camadas: em redes de mltiplas camadas existe mais de um
nodo entre qualquer entrada e qualquer sada da rede neural.
Conectividade da rede:
44
Redes retro-alimentadas.
As camadas ocultas e de sada so compostas por neurnios, o que significa que elas
tm capacidade de processamento. A camada de entrada composta por elementos que
somente repassam para a camada seguinte o seu estmulo de entrada, sem realizar
nenhum processamento com sua entrada. Alm disso, as redes multicamadas so
obrigatoriamente alimentadas adiante, e podem ser tanto fracamente conectadas quanto
totalmente conectadas.
A quantidade de neurnios nas camadas ocultas e de sada, assim como a quantidade
de camadas ocultas, variam de acordo com a natureza do problema a ser aprendido e
devem ser definidas durante o projeto da rede. A definio da quantidade de neurnios
na camada de sada trivial. Em tarefas de regresso geralmente utilizado somente um
neurnio na camada de sada. Em tarefas de classificao geralmente so utilizados
tantos neurnios quantas forem as classes a serem preditas. J as decises referentes
camada oculta so as mais difceis, no existindo regras plenamente aceitas para isso,
porm existe um consenso que dificilmente devem ser necessrias mais de duas
camadas ocultas (MUNAKATA, 2008). A deciso da quantidade de neurnios na
45
primeira camada oculta e na segunda, caso ela seja necessria, geralmente tomada
aps a anlise de diversas configuraes de valores distintas. Desta forma, so criadas
diversas RNAs, cada uma delas com diferentes configuraes de camadas ocultas. A
configurao que obtiver melhor resultado na modelagem do problema ser utilizada.
Existem tambm algumas abordagens hbridas que utilizam algoritmos genticos para
definir estas configuraes (TAYLOR, 2006).
A figura 3.4 apresenta um exemplo tpico de uma RNA multicamada, alimentada
adiante, totalmente conectada, com 7 entradas, 1 camada oculta com 10 neurnios, e 3
neurnios na camada de sada.
f : X Y
onde X representa o conjunto de exemplos de treinamento, e Y representa os valores
alvo da funo, e f representa o modelo que faz o mapeamento. Tal modelo geralmente
depende de parmetros adaptativos, e o processo de aprendizado consiste em pesquisar
os valores timos para estes parmetros adaptativos. Os algoritmos de treinamento das
redes neurais consistem em abordagens heursticas para vasculhar grandes espaos de
pesquisa a fim de definir os valores destes parmetros adaptativos.
46
47
E=
1 m
1 m 2
[
d
(
k
)
y
(
k
)]
=
j
e j (k )
j
2 j =1
2 j =1
onde o erro de sada ej descreve o erro entre a j-sima resposta desejada e a j-sima
sada da rede, e dado por:
ej = (dj - yj)
48
49
50
Regio mdia (RM): onde a taxa de erro atinge um nvel de estabilidade mesmo
com o incremento de caractersticas. As caractersticas com muita informao
relevante j foram inseridas na regio anterior, j as caractersticas inseridas
neste ponto tm pouca informao relevante para a distino dos padres. A
incluso destas caractersticas ento tende a alterar sutilmente a taxa de erro.
51
52
benefcios obtidos com a RDD devem ser maiores que o prejuzo da perda de
informao.
Sob um alto nvel de abstrao, as tcnicas de RDD geralmente so aplicadas com
algum dos seguintes objetivos:
A anlise de dados reais pode conter centenas de caractersticas, sendo que muitas
delas so irrelevantes para a minerao de dados (HAN e KAMBER, 2001). Apesar de
ser possvel o especialista do domnio selecionar as caractersticas que ele julga mais
informativas, esta tarefa geralmente demanda um grande consumo de tempo.
principalmente no caso dos dados no serem conhecidos. Por outro lado, se a rea de
pesquisa inovadora, provavelmente no haja especialistas do domnio e nenhum
conhecimento prvio poder ser explorado a fim de selecionar as caractersticas mais
informativas.
Conforme Cios et al. (2007), especificamente na rea de descoberta de
conhecimento em bancos de dados, as tcnicas de RDD realizam principalmente as
seguintes atividades:
53
54
pelo fato de que o processo que deu origem a estas novas caractersticas
extradas, pode no ser bem conhecido.
Os algoritmos de extrao de caractersticas podem ser classificados em termos de
tipo de transformao: linear e no linear; e em termos do tipo de aprendizado:
supervisionado ou no supervisionado. A tabela 4.1 apresenta algumas tcnicas de
extrao de caractersticas e suas respectivas classificaes.
Tabela 4.1: Exemplos de tcnicas de extrao de caractersticas
Tipo de transformao
Linear
- Anlise de Componentes
Principais (ACP)
Natureza do
Aprendizado
No
Supervisionado -Anlise de Componentes
Independentes (ACI)
- Anlise de Discriminantes
Supervisionado Lineares (ADL)
No Linear
- Anlise de
Componentes
Principais No Linear
- RNAs multicamadas
55
geradas previamente. Estas hipteses podem ser geradas por alguma outra tcnica de
aprendizado indutivo, tal como rvores de induo ou regras de associao. Abordagens
baseadas em conhecimento constroem novas caractersticas atravs da aplicao de
conhecimento j existente sobre o problema, geralmente obtido atravs do especialista
do domnio. Abordagens hbridas utilizam uma combinao das abordagens
previamente citadas.
Os operadores, citados previamente, assumem um papel fundamental no somente
na abordagem orientada a dados, mas tambm nas demais abordagens de construo de
caractersticas. Existe uma quantidade muito grande de operadores, e eles so
classificados de acordo com o tipo de dado a que sero aplicados. Os operadores mais
comuns aplicados a caractersticas nominais so: conjuno, disjuno, negao,
condicional (se-ento) e bicondicional (se-e-somente-se). J os operadores mais comuns
para caractersticas numricas so os operadores algbricos bsicos, tais como: adio,
subtrao, multiplicao, diviso; os operadores relacionais, tais como: igual, diferente,
maior, menor; e as funes de agregao, tais como: mximo, mnimo, soma e mdia.
Existe uma grande quantidade de operadores que podem ser utilizados na construo
de atributos. Aliado a isso, pode haver tambm uma grande quantidade de
caractersticas de entrada. A exploso combinatorial causada pelas possveis
combinaes entre caractersticas e operadores torna a construo de caractersticas uma
tarefa extremamente difcil. Isto faz com que a busca exaustiva pelo espao de
caractersticas construtveis provavelmente torne-se proibitiva. O desenvolvimento de
abordagens que possam explorar este espao de forma inteligente e eficiente uma
necessidade premente, j que a carncia por tais abordagens notria.
Dada a mecnica do processo de construo de caractersticas, comentadas no
pargrafo anterior, possvel neste processo a gerao de uma grande quantidade de
novas caractersticas. Porm, dentre as caractersticas construdas, algumas devem
melhorar o desempenho do modelo de classificao ou regresso, e outras no. Por este
motivo, existe a necessidade da identificao de quais caractersticas construdas devem
efetivamente ser adicionadas ao modelo. Esta identificao deve ser realizada com base
em alguma mtrica de avaliao das novas caractersticas. Esta mtrica deve estar
relacionada com a finalidade do modelo, seja ele de regresso ou de classificao.
Dentre as tcnicas atualmente utilizadas para construo de caractersticas podem
ser citados os algoritmos genticos, como exemplo de uma abordagem orientada a
dados, e o uso de rvores de deciso e regras de associao, como abordagens
orientadas a hipteses. Por outro lado a aplicao de abordagens baseadas em
conhecimento, que utilizam algum conhecimento prvio do domnio, provavelmente
apresente melhores resultados. Porm esta abordagem nem sempre passvel de
utilizao.
A construo de caractersticas, assim como ocorre com a extrao, tambm deve
manter as caractersticas originais, fazendo com que ocorra um aumento da
dimensionalidade dos dados de entrada. Assim sendo, faz-se necessria a aplicao
posterior de alguma tcnica de seleo de caractersticas, de forma que seja
efetivamente reduzida a dimensionalidade dos dados de entrada.
A seleo de subconjunto de caractersticas, que a terceira categoria de tcnicas de
reduo de dimensionalidade, comentada na prxima seo.
56
Sob um alto nvel de abstrao, o processo de SSC pode ser visualizado como uma
busca em um espao de estados. O processo de SSC pode ser resumido em 4 subprocessos bem definidos, sendo eles:
57
relevantes. Porm, neste caso, ainda seria necessrio definir o parmetro k e definir a
funo de avaliao de relevncia.
4.4.3 Seleo da Funo de Avaliao
dE =
(x
yi )
i =1
58
d M = xi y i
i =1
H ( X ) = px log 2 ( px )
x
Entropia conjunta, que pode ser utilizada para calcular quanta entropia existe
entre duas caractersticas X e Y, cujos valores sejam discretos. A
entropia conjunta dada por:
H ( X , Y ) = p x , y log 2 ( p x , y )
x, y
59
DKL ( p( X ) || q( X )) = p( x) log
xx
p( x)
q ( x)
cov( X , Y )
var( X ) var(Y )
60
Este processo de projeo maximiza a distncia entre as mdias das duas classes e
minimiza a varincia dentro cada classe (DALGAARD, 2002). O critrio de Fisher pode
ser definido como:
J ( w) =
m1 m2
s12 + s22
| x
G=
xj |
i =1 j =1
2n 2
=1
2
i
n(n 2 1)
61
nc nd
1
n(n 1)
2
nc nd
nc + nd
Mtricas de consistncia
As mtricas de consistncia tm caractersticas diferentes das mtricas tratadas
anteriormente. Dentre elas pode ser citada a mtrica Min-Feature bias, utilizada pelo
algoritmo Focus (FOUNTAIN et al., 1991). Este algoritmo realiza uma busca exaustiva
no espao de estados de caractersticas a fim de encontrar um conjunto mnimo de
atributos que seja suficiente para descrever a classe de todos os exemplos de
treinamento. Como restrio a utilizao deste algoritmo, tem-se o fato dele ter sido
proposto para domnios booleanos sem rudo.
Outro algoritmo que se enquadra na categoria de mtricas de consistncia o
algoritmo Relief. Este algoritmo foi desenvolvido por Kira e Rendell (1992) e possui
uma funo de avaliao de caractersticas mais complexa que o algoritmo Focus. Relief
eficiente para a estimao da qualidade dos atributos a partir de dependncias
encontradas entre eles.
O algoritmo Relief original pode tratar caractersticas tanto discretas quanto
contnuas. Por outro lado, ele pode ser aplicado apenas a problemas de classificao
com somente duas classes. Quando aplicado a caractersticas discretas, o algoritmo
retorna 1 se os valores so diferentes, ou 0, se os valores so iguais. Quando aplicado a
caractersticas contnuas, o algoritmo retorna a diferena normalizada no intervalo [0,1].
O algoritmo Relief pode ter seu desempenho fortemente afetado por dados
redundantes e ruidosos, tornando seus resultados pouco confiveis. Para superar esta
restrio, foi proposta uma extenso deste algoritmo, chamada Relief-A que consegue
tratar dados com rudo e dados omitidos.
A extenso Relief-D permite a utilizao desta abordagem em problemas de
classificao com mais de duas classes.
Outra extenso do algoritmo original a Relief-F, proposta por Kononenko (1994).
Relief-F pode tratar problemas de regresso e tambm permite o tratamento de
problemas com valores omitidos.
62
63
64
65
Algoritmos genticos
Os algoritmos genticos (AG) consistem em uma classe de algoritmos de otimizao
estocsticos inspirados nos princpios biolgicos de gentica e de seleo natural
(HAUPT e HAUPT, 2004). Tais princpios fundamentam uma forma robusta de
evoluo bem sucedida de organismos, definindo uma heurstica que permite a uma
populao, composta de muitos indivduos, evoluir atravs da aplicao regras de
seleo especficas. Esta evoluo se d para um estado que maximize uma funo de
adaptao. Tal funo de adaptao, dado um indivduo, retorna um valor contnuo que
permite avaliar o nvel de adaptao deste indivduo ao ambiente no qual ele est
inserido.
Segundo as regras de seleo natural, os organismos menos adaptados ao ambiente
morrem, enquanto os que esto mais bem adaptados ao ambiente iro viver e
reproduzir-se, transferindo suas caractersticas para seus descendentes atravs da
herana gentica. Cada nova gerao estaria mais bem adaptada ao ambiente que a
gerao anterior. Ocasionalmente, mutaes aleatrias podem ocorrer durante a
reproduo, o que geralmente conduz a morte dos indivduos mutados, mas tambm
pode conduzir a novas espcies melhor adaptadas. Tambm pode ocorrer a
recombinao, ou crossover, que faz com que durante o processo de reproduo, dois
cromossomos sejam cortados em alguma posio randmica e suas partes cortadas
sejam trocadas.
Outra possibilidade importante a criao de solues hbridas combinando
mtodos no-determinsticos e mtodos tradicionais, tais como a perturbao aleatria.
Estas abordagens combinam as vantagens de mtodos determinsticos e nodeterminsticos e aceleram a convergncia dos algoritmos estocsticos.
4.4.4.4 Busca sequencial
Qualquer uma das estratgias de busca mencionadas anteriormente pode aplicar uma
das seguintes tcnicas de busca seqencial:
66
67
conjunto E, com m exemplos, tal que E = {e1, e2, ..., em}. Um filtro pode ser definido
como uma funo f que retorna um valor de relevncia J(Ci|E) que estima, com base no
conjunto de exemplos E, o nvel de relevncia de uma dada caracterstica ci. Tal tarefa
geralmente ser de classificao ou regresso. As m caractersticas que obtiverem um
maior valor de relevncia sero passadas ao algoritmo de minerao na forma de um
conjunto Xopt = {x1, x2, ..., xm}, onde X C. Desta forma, o filtro gera como sada o
conjunto de caractersticas Xopt ordenado pelas suas respectivas relevncias da seguinte
forma: J(x1) J(x2) ... J(xm). J as caractersticas com menor valor de relevncia sero
filtradas e no sero repassadas ao algoritmo de minerao. Com a realizao da
filtragem, o algoritmo de treinamento no mais receberia o conjunto inicial de exemplos
E, mas sim o conjunto EXopt que seria o conjunto original com a dimensionalidade
reduzida de acordo com as caractersticas selecionadas pelo filtro. Por tambm
realizarem uma ordenao das caractersticas originais, segundo alguma mtrica de
relevncia, diz-se que alguns filtros realizam o processo de feature ranking.
A definio de um limiar para separar as caractersticas relevantes das no
relevantes no uma tarefa trivial, de forma que ainda pode ser necessria a utilizao
de um wrapper para definir este limiar de acordo com o algoritmo de minerao que
ser utilizado. A utilizao de uma abordagem hbrida de filtro seria realizada de forma
que fossem gerados n diferentes subconjuntos de caractersticas, cada um deles
contendo as n caractersticas mais informativas, de forma que o primeiro subconjunto
conteria apenas a caracterstica mais informativa, o segundo subconjunto conteria as
duas caractersticas mais informativas, e assim sucessivamente. A funo do wrapper
seria testar qual destes n subconjuntos gerados o melhor.
Adicionalmente, os filtros ainda podem ser classificados em locais e globais. Os
filtros globais avaliam as caractersticas levando em conta todos os dados disponveis,
independentemente de seu contexto. Neste caso, supondo uma tarefa de classificao,
todos os dados de entrada seriam tratados igualmente, independentemente de suas
respectivas classes. J os filtros locais, no mesmo caso previamente citado, seriam
aplicados diversas vezes a cada uma das classes do problema, analisando somente os
exemplos pertencentes quela classe especfica. No caso da aplicao de filtros locais
em tarefas de regresso, poderiam ser aplicados vrios filtros diferentes, sendo um deles
aplicado a uma faixa especfica de valores de sada.
68
69
So dirigidos pela demanda, ou seja, cada vez que uma nova instncia
submetida, seu relacionamento com as instncias de treinamento analisado.
So exemplos de mtodos preguiosos de abordagens embutidas o algoritmo do ksimo vizinho mais prximo (kNN), proposto por Cover e Hart (1967) e o algoritmo de
70
raciocnio baseado em casos (CBR), proposto por Kolodner (1993), assim como suas
respectivas variaes.
Navot et al (2005) apresentam o algoritmo RGS (Regression, Gradient guided,
feature Selection). Este algoritmo realiza a seleo de caractersticas de entrada baseado
na tcnica do k-simo vizinho mais prximo. O RGS pode ser utilizado como um filtro
para outros algoritmos de regresso, ou como um wrapper para estimao pelo
algoritmo kNN. O algoritmo utiliza uma verso do algoritmo do k-simo vizinho mais
prximo que atribui pesos as caractersticas de entrada. O mtodo captura dependncias
complexas da funo alvo em relao a suas entradas e usa o erro leave-one-out como
uma regularizao natural. no linear. Tem implementao e funcionamento
relativamente simples.
Por outro lado, o algoritmo RGS tem algumas limitaes, entre elas podem ser
citadas as seguintes:
O critrio de parada define quando o processo de SSC deve ser finalizado e deve
retornar a melhor soluo encontrada. O critrio de parada uma deciso crtica, pois,
caso ele seja definido erroneamente, podem ocorrer dois problemas extremos. No
primeiro, se o critrio de parada for muito restritivo, uma poro muito grande do
espao de busca seria analisada, o que resultaria em uma grande quantidade de tempo
para alcanar uma soluo tima. No segundo, caso o critrio de parada seja pouco
restritivo, o tempo da busca seria pequeno, porm haveria grande probabilidade que a
soluo encontrada no fosse satisfatria.
Dentre os critrios de parada mais utilizados podem ser citados:
71
73
(PANINSKI et al., 2007). Funcionalmente, em uma rede MLP, tambm podem ser
reconhecidas estas duas reas distintas: a rea codificadora e a rea decodificadora.
Quando uma RNA treinada com os dados relativos a algum problema, os padres
expressos nestes dados ficam representados nos pesos sinpticos. Os pesos sinpticos
entre a camada de entrada e a primeira camada oculta agem como codificadores dos
estmulos recebidos, que expressam os padres encontrados nos dados de entrada. J os
pesos sinpticos entre a ltima camada oculta e a camada de sada agem como
decodificadores, reconstruindo um valor de sada a partir dos padres extrados dos
dados de entrada pela RNA (ALPAYDIN, 2010).
Assim, dada esta realidade, prope-se que a definio da importncia de cada
caracterstica seja dada por um escore que se baseia nos pesos sinpticos da regio
codificadora da rede, ou seja, os pesos sinpticos que ligam a camada de entrada
primeira camada oculta. A partir da definio da importncia que cada caracterstica de
entrada tem na predio do valor da sada da rede neural ento proposta uma
abordagem de reduo de dimensionalidade para otimizar a criao dos modelos
neurais.
Considere-se uma RNA do tipo MLP, com N entradas, L unidades ocultas e uma
nica sada, conforme figura 5.1, treinada para uma tarefa de regresso pelo algoritmo
Backpropagation (BP) com um conjunto de P dados de treinamento. Para tanto, a
funo de ativao das unidades da camada oculta a tangente hiperblica, e a da sada
linear. Considera-se ainda que as entradas foram normalizadas, de modo que tenham
mdia zero.
74
Dentro deste escopo, deseja-se ordenar as entradas pela sua importncia em relao
predio da sada da rede. Para isso, propomos utilizar apenas a informao dos
valores dos pesos das unidades da camada oculta ajustados pelo algoritmo BP para a
tarefa de interesse.
Os pesos da camada oculta so os parmetros usados na transformao no linear do
espao original de entrada para o espao intermedirio definido pelas unidades ocultas.
As sadas da camada oculta formam um vetor de caractersticas que serve de base para a
regresso linear efetuada pela unidade de sada, onde os pesos so os parmetros do
regressor linear de sada. Durante o treinamento, o algoritmo BP ajusta os pesos da
camada oculta de modo a formar caractersticas intermedirias timas para o problema
de regresso, que realizado pela camada de sada. Como os pesos da camada de sada
so compartilhados por todas as unidades da camada oculta, a nossa suposio que os
pesos da camada oculta fornecem a informao necessria para a ordenao da
importncia das entradas no problema de regresso. A partir destas consideraes,
derivamos a seguir a expresso para o clculo do escore utilizado na ordenao das
entradas.
O clculo do escore dado pela seguinte frmula:
si =
1 L o
w ji
L j =1
Tendo-se que:
woji o peso da sinapse entre o i-simo neurnio da camada de entrada e o jsimo neurnio da primeira camada oculta.
75
v oj = xi woji
Como a funo de ativao tangente hiperblica prximo a zero tem ganho unitrio,
segue que a variao na sada do neurnio j dada por:
i j = v oj = xi w oji
Com isso, a sensibilidade sji, da sada da camada oculta ij em relao entrada xi
dada diretamente pelo peso desta conexo:
s ji =
i j
xi
= w oji
si =
1 L
1 L o
s
=
w ji
ji L
L j =1
j =1
76
77
Figura 5.3: Seqncia das atividades que compem o clculo do melhor subconjunto de
caractersticas
Tendo-se que os dados originais so representados em uma matriz m x n, onde m a
quantidade de amostras e n a quantidade de variveis descrevendo cada amostra, a
abordagem proposta visa transformar os dados em uma nova matriz m x o, onde o < n.
Esta nova matriz denotada por EXopt. O conjunto Xopt que contm as o caractersticas
selecionadas para este modelo so aqueles com maiores escores, e a inteno que o
modelo com o caractersticas de entrada atinja um maior nvel de exatido preditiva que
o modelo com n caractersticas.
Adicionalmente, salienta-se que a abordagem proposta pode ser aplicada tanto em
tarefas de classificao quanto de regresso, conforme evidenciado na avaliao de
desempenho, e funciona com alto nvel de eficincia tanto em problemas lineares
quanto em problemas no lineares. Uma relevante restrio aplicao da abordagem
proposta que a RNA treinada com todas as caractersticas de entrada dever produzir
um modelo com desempenho no mnimo equivalente a um aprendiz fraco (HAYKIN,
1999). Caso o modelo inicial no consiga aprender absolutamente nada sobre os dados,
ento no haver nenhum conhecimento relevante expresso nos pesos sinpticos e as
sadas geradas pela rede sero, em mdia, iguais incerteza mxima. Se esta restrio
no for obedecida, a aplicao do modelo neural de aprimoramento progressivo no ir
gerar nenhum benefcio adicional em relao ao modelo inicial.
78
Para este experimento foi gerado um conjunto de dados no qual estava expresso o
problema do XOR, que um problema clssico na rea de redes neurais (HAYKIN,
1999). O problema do XOR um problema de natureza no linear, no qual a aplicao
de tcnicas lineares no eficiente. Alm disso, no conjunto de entradas foram includas
diversas caractersticas irrelevantes para a soluo do problema. O objetivo deste
experimento comprovar a capacidade da abordagem proposta para identificar as
caractersticas mais informativas e melhorar os resultados obtidos pela rede neural que
utiliza todas as caractersticas de entrada.
input_data = round(rand(features,samples))
onde features o nmero de caractersticas para cada amostra, definido como 20; e
samples o nmero de amostras do conjunto de dados, definido como 100. Foram
gerados diversos conjuntos de dados com diferentes valores de features e samples. Nos
experimentos realizados foram definidos os valores 20 e 100 pois permitiam um bom
balanceamento entre quantidade de amostras e dificuldade do problema; alm de ser
obtido um problema de razovel dificuldade.
Os valores de sada para este conjunto de amostras so dados por uma funo XOR
dos valores da primeira e da segunda coluna:
output_data = xor(input_data(1,:),input_data(2,:))
Adicionalmente, tanto os valores de entrada quando os de sada so escalonados de
forma que o valor mnimo seja -1 e o valor mximo seja 1, em virtude deste ser um dos
requisitos das redes neurais utilizadas. A funo de escalonamento dada pela seguinte
frmula:
pe = 2*(p-minp)/(maxp-minp) 1
79
onde minp o valor mnimo assumido pela caracterstica em todas as amostras, maxp
o valor mximo assumido pela caracterstica em todas as amostras, p o valor da
caracterstica na amostra atual, e pe o valor p escalonado.
5.2.1.2 Resultados
Aps a concluso do processo de treinamento da rede, foram calculados os escores
para cada uma das caractersticas de entrada. A figura 5.4 mostra estes escores, onde
percebe-se que a abordagem conseguiu indentificar as caractersticas de entrada mais
relevantes para a predio do valor de sada da rede.
Enquanto o modelo neural criado com todas as 20 caractersticas de entrada obteve
28% de taxa de erro, o modelo criado aps a utilizao do modelo neural de
aprimoramento progressivo obteve 2,85% de taxa de erro, conseguindo ser mais exato
com uma menor quantidade de caractersticas.
Tabela 5.1: Distncia euclidiana entre os valores ideais de escore e os valores obtidos
com cada uma das abordagens utilizadas no problema do XOR
Abordagem
Distncia
Escore proposto
0,28812
Mahalanobis
1,69662
GLS
2,12132
OLS
2,12132
Internal Product
2,12132
Covariance
2,12132
Kendall
2,12314
Spearman
2,12314
Correlation coefficient
2,12314
T Test Regression
2,80792
Regression
2,80792
Welch Test
2,88818
T Test
2,88818
Wilcoxon
2,94615
U Test
2,95901
Kruskal Wallis
2,95901
Sign
2,99669
Chi-square
3,01954
Entropy
3,35720
Var Test
3,70111
Bartlett
4,01253
80
Para este experimento foi gerado um conjunto de dados sinttico no qual estava
expresso um problema proposto envolvendo operaes com a funo SENO. Da mesma
forma que no experimento anterior, no conjunto de entradas foram includas diversas
caractersticas irrelevantes para a soluo do problema. Novamente, o objetivo do
experimento comprovar a capacidade da abordagem proposta de identificar as
caractersticas mais informativas e melhorar os resultados obtidos pela rede neural que
utiliza todas as caractersticas de entrada, desta vez em um problema no linear de
regresso.
input_data = rand(features,samples)
onde features o nmero de caractersticas para cada amostra, definido como 50; e
samples o nmero de amostras do conjunto de dados, definido como 200. Foram
gerados diversos conjuntos de dados com diferentes valores de features e samples. Nos
experimentos realizados foram definidos os valores 50 e 200 pois permitiam um bom
balanceamento entre quantidade de amostras e dificuldade do problema; gerando um
problema de razovel dificuldade.
Os valores de sada para este conjunto de amostras so dados por uma funo SIN
dos valores da primeira e da segunda coluna:
81
output_data =
sin(input_data(10,:))-sin(input_data(20,:))+sin(input_data(30,:))+sin(input_data(40,:))
Adicionalmente, tanto os valores de entrada quando os de sada so escalonados de
forma que o valor mnimo seja -1 e o valor mximo seja 1. A funo de escalonamento
dada pela seguinte frmula:
pe = 2*(p-minp)/(maxp-minp) 1
onde minp o valor mnimo assumido pela caracterstica em todas as amostras, maxp
o valor mximo assumido pela caracterstica em todas as amostras, p o valor da
caracterstica na amostra atual, e pe o valor p escalonado.
5.2.2.2 Resultados
A figura 5.5 mostra os escores obtidos para cada uma das 50 caractersticas de
entrada. Atravs da figura, percebe-se que os escores dos atributos 10, 20, 30 e 40 tm
valores bem mais elevados que os escores dos demais atributos. Isto demonstra que o
escore proposto torna possvel quantificar, no problema sob anlise, a relevncia destes
atributos em relao sada do problema, exatamente conforme definido nas frmulas
de criao do banco de dados descritas no item anterior. Os demais escores tm valores
menores, dado que eles possuem somente rudo, conforme expresso no banco de dados
criado.
Enquanto o modelo neural criado com todas as 50 caractersticas de entrada obteve
0,0286 como o melhor valor absoluto de erro de teste, o modelo criado aps a aplicao
da abordagem proposta obteve 0,0102 de taxa de erro, conseguindo ser mais exato com
uma menor quantidade de caractersticas. Neste experimento, a reduo do erro foi de
65%.
82
ideais. A tabela 5.2 mostra que a abordagem proposta conseguiu obter resultados mais
prximos aos escores ideais do que as demais abordagens utilizadas.
Tabela 5.2: Distncia euclidiana entre os valores ideais de escore e os valores obtidos
com cada uma das abordagens utilizadas no problema do SIN
Abordagem
Distncia
Escore proposto
0,92331
Covariance
1,00363
Correlation coefficient
1,00377
Kendall
1,01867
Spearman
1,01945
GLS
1,54805
OLS
1,54805
Internal Product
1,54805
Sign
1,73190
Bartlett
2,19305
Var Test
2,19311
Chi-square
2,21705
Mahalanobis
3,91332
T Test Regression
4,29966
Regression
4,29966
Entropy
6,58780
3 camadas.
83
5 reinicializaes / retreinamentos.
10-fold cross-validation.
Sadas
x1
x2
...
xm-1
xm
xm+1
x2
x3
...
xm
xm+1
xm+2
x3
x4
...
xm+1
xm+2
xm+3
...
...
...
...
...
...
...
...
...
...
...
...
xn-m
xn-m+1
...
xn -2
xn-1
xn
O tempo pode ser modelado em uma rede neural de forma implcita ou explcita
(HAYKIN, 1999). No experimento a seguir descrito o tempo foi representado de
maneira implcita, na forma de memrias de curta durao, e foi utilizada uma rede
neural esttica do tipo MLP. Este tipo de rede denominada Time Lagged Feedforward
Network (TLFN). A memria de curta durao implementada em uma TLFN consiste
na apresentao de um sinal xn e dos m valores anteriores xn-1, xn-2,..., xn-m. A fim de
atender os requisitos desta memria de curto prazo, houve a necessidade de realizar uma
transformao sobre os dados de entrada, que estavam em uma forma vetorial, e foram
transformados para uma forma de matriz de regresso. Supondo-se um vetor de entrada
84
X, com n elementos, e uma rede neural com m entradas, a matriz de regresso gerada
de acordo com a tabela 5.3.
5.3.1.1 Banco de Dados
Para realizar os experimentos foi utilizado um conhecido banco de dados com a
quantidade de passageiros de linhas areas nos Estados Unidos, originalmente publicado
por (BOX et al., 1976). Estes dados consistem na quantidade mensal medida durante 12
anos consecutivos, entre 1949 e 1960, totalizando 144 amostras. O foco da minerao
a predio do nmero de passageiros para os 4 anos subseqentes, de 1961 a 1964, ou
seja, as prximas 48 amostras.
Este banco de dados foi foco de uma competio de predio de sries temporais no
25th International Symposium on Forecasting, ocorrido em 2005.
5.3.1.2 Experimentos
Foram realizados experimentos com diversas configuraes de redes neurais
diferentes. Alm disso, outra deciso crtica foi em relao gerao da matriz de
regresso. O dilema enfrentado foi a determinao da quantidade de entradas a ser
utilizada para a rede neural. Esta deciso crtica devido pouca quantidade de
amostras. medida que o valor de m aumentado, a quantidade de exemplos para
treinamento/teste diminui. A relao entre a quantidade de amostras e entradas dada
da seguinte forma:
Qe = n m
Onde Qe a quantidade de amostras disponveis para treinamento.
De acordo com as diversas configuraes de matriz de regresso utilizadas, a melhor
configurao possvel foi obtida com o valor de m = 48. Esta configurao resulta na
existncia de 96 exemplos para treinamento/teste. Tal cenrio denota um problema de
alta dimensionalidade, dado que a relao entradas/caractersticas 2.
Para realizar o experimento de predio desta srie temporal, foi utilizada uma rede
neural com as seguintes caractersticas:
85
Figura 5.6: Predio dos valores da srie temporal usando 48 caractersticas de entrada
86
Figura 5.8: Predio dos valores da srie temporal usando o conjunto reduzido de
caractersticas de entrada
A figura 5.8 mostra a predio da srie temporal para as prximas 48 entradas,
somente com as 8 caractersticas de escore mais alto, de acordo com os preceitos da
abordagem proposta. Relativamente ao resultado descrito na figura 5.6, percebe-se que a
figura 5.8 mostra um resultado mais coerente, onde as amostras preditas mantm a
mesma tendncia de crescimento das amostras conhecidas.
Os resultados obtidos com a aplicao da abordagem proposta foram submetidos
competio de predio do 25th International Symposium on Forecasting e ficaram entre
os 3 melhores trabalhos (CAMARGO e ENGEL, 2005).
5.3.2 Regresso
87
5.3.2.2 Experimentos
Predio de macroporosidade
Para predio de macroporosidade foram executados os experimentos descritos a
seguir.
Em adio s caractersticas apresentadas na introduo da seo 5.3, a rede neural
tinha as seguintes caractersticas particulares:
88
Figura 5.9: Resultado desejado x resultado obtido de macroporosidade para cada uma
das 48 amostras por meio da regresso com 60 entradas na rede.
Figura 5.10: Erro de predio de macroporosidade para cada uma das 48 amostras
usando 60 caractersticas como entrada da rede.
A figura 5.11 apresenta os pesos de cada uma das sinapses das caractersticas de
entrada. A mdia dos pesos foi 0,2556 e o desvio padro 0,3704. Baseados nos pesos
das sinapses foram identificadas as caractersticas mais relevantes para a tarefa de
regresso do valor da macroporosidade. As 10 caractersticas com maiores pesos so
apresentados na tabela 5.4 em ordem decrescente de importncia. As caractersticas de 1
a 3 tm pesos maiores que a mdia mais um desvio padro, indicando a sua grande
importncia para predio da macroporosidade. As caractersticas 4 e 5 tm pesos
maiores que a mdia, o que tambm mostra sua importncia. As demais caractersticas
identificam os maiores pesos, menores que a mdia.
89
Figura 5.11: Pesos sinpticos de cada uma das 60 caractersticas da camada de entrada
usados para predio de macroporosidade.
Tabela 5.4: Caractersticas mais importantes para a predio da macroporosidade
Entrada Atributo Descrio
Peso
Quartz Monocrystalline
2,5538
54
Intergranular Volume
1,5992
55
Cement Total
1,0115
56
Carbonate Total
0,5677
58
0,3078
21
Quartz Overgrowth
0,2446
18
Clay Ooid
0,2396
30
0,2379
57
Silica Total
0,2375
10
27
Microquartz Rims
0,2030
90
2,7173
26,17%
2,7110
26,11%
1,8637
17,97%
1,9578
18,86%
2,0533
19,78%
60
2.1403
20,61%
A figura 5.12 apresenta os valores obtidos e desejados para cada amostra predita
utilizando somente 3 caractersticas de entrada. A figura 5.13 apresenta os valores de
erro absolutos utilizando 3 e 60 caractersticas de entrada, sendo perceptvel que o erro
de predio com 3 caractersticas quase sempre menor que com 60 caractersticas, o
que mostra indiscutivelmente a importncia das caractersticas 1, 2 e 3 da tabela 5.4.
91
92
Figura 5.14: Resultado desejado x resultado obtido de porosidade petrofsica por meio
da regresso com 70 entradas na rede.
A figura 5.15 apresenta o erro absoluto, em uma das cinco repeties do
experimento, sendo que a mdia dos erros foi 2,47, e o desvio padro do erro foi 2,096.
93
Figura 5.15: Erro de predio de porosidade petrofsica para cada um das 48 amostras
usando 70 caractersticas como entrada da rede.
A figura 5.16 apresenta os pesos de cada uma das sinapses das caractersticas de
entrada. A mdia dos pesos foi 0,2043 e o desvio padro 0,2373. Baseados nos pesos
das sinapses foram identificadas as caractersticas mais relevantes para a tarefa de
regresso do valor da porosidade petrofsica. As 10 caractersticas com maiores pesos
so apresentados na tabela 5.6 em ordem decrescente de importncia. As caractersticas
de 1 e 2 tm pesos maiores que a mdia mais um desvio padro, indicando a sua grande
importncia para predio da porosidade petrofsica. As caractersticas 3 a 8 tm pesos
maiores que a mdia, o que tambm mostra sua importncia. As demais caractersticas
identificam os maiores pesos, menores que a mdia.
Figura 5.16: Pesos sinpticos de cada uma das 70 caractersticas da camada de entrada
usadas para predio de porosidade petrofsica.
94
Atributo Descrio
Peso
Quartz Monocrystalline
2,9278
54
Intergranular Porosity
0,6925
64
Intergranular Volume
0,5350
66
Carbonate Total
0,4382
65
Cement Total
0,3989
68
0,3381
67
Slica Total
0,2391
39
0,2267
20
0,1833
10
21
Quartz Overgrowth
0,1723
95
Erro
Absoluto
Erro
Percentual
2,8676
20,91%
2,0747
15,13%
2,0902
15,24%
2,1626
15,77%
2,1012
15,32%
70
2,2367
16,31%
Figura 5.17: Resultado desejado x resultado obtido de porosidade petrofsica por meio
da regresso com 2 entradas na rede.
96
97
5.3.3.2 Experimentos
O primeiro experimento executado leva em considerao todas as caractersticas
disponveis, sendo criado um modelo com 39 variveis. A figura 5.19 apresenta os
escores da camada de entrada referentes a estas 39 variveis. O segundo passo ordenar
as variveis de acordo com os seus respectivos escores. O terceiro passo criar diversos
modelos, partindo do modelo com um nico atributo, que tem o maior escore, e
inserindo-se gradativamente as prximas caractersticas com maior escore. No
experimento atual, foi utilizada a tcnica de validao cruzada leave-one-out.
98
A tabela 5.8 apresenta a comparao entre dois modelos gerados com a abordagem
proposta, com 10 e 11 caractersticas, e um modelo com todas as caractersticas
presentes nos dados originais. A comparao baseada em mtricas estatsticas e
mostra os melhores resultados obtidos com modelos mais simples. Nota-se que o
modelo com 10 caractersticas mais eficiente que o modelo com 39 caractersticas de
acordo com todas as mtricas analisadas. J a partir da incluso do 11 atributo, o
modelo melhorou sensivelmente em relao s mtricas de especificidade e preciso,
todavia diminuiu sua sensibilidade, apresentando uma maior dificuldade de predio
dos casos positivos.
A figura 5.20 apresenta o desempenho relativo dos modelos com 1 at 17
caractersticas em relao ao modelo original com 39 caractersticas. O valor 0 do eixo
y representa o valor das mtricas em relao ao modelo original.
Tabela 5.8: Comparao de 2 modelos gerados com a abordagem proposta e modelo
original com todas as caractersticas.
Mtrica
10
11
39
Caractersticas Caractersticas Caractersticas
Exatido
0,83178
0,84112
0,79439
Sensibilidade
0,56522
0,47826
0,52174
Especificidade
0,90476
0,94048
0,86905
Preciso
0,61905
0,68750
0,52174
99
100
101
REFERNCIAS
ACKOFF, R. L. From data to wisdom. Journal of Applied Systems Analysis. Vol. 16,
1989. p. 3-9.
ALPAYDIN, E. Introduction to Machine Learning. 2 ed. Cambridge: MIT Press,
2010.
BELLMAN, R. Adaptive Control Processes: A Guided Tour. Princeton: Princeton
University Press, 1961.
BERRY, M. J. A.; LINOFF, G. S. Data mining techniques for marketing, sales, and
customer relationship management. 2. ed. Indianapolis: Wiley Publishing Inc, 2004.
BISHOP, C. M. Neural networks for pattern recognition. New York: Oxford
University Press, 1995.
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis, Forecasting
and Control. 3. ed. Holden-Day. Series G, 1976.
CAMARGO, S. S. Minerao de dados: um estudo de caso sobre parmetros
petrogrficos e petrofsicos dos arenitos da formao de Uer. 2005. 48 f. Relatrio
de Pesquisa Instituto de Informtica, UFRGS, Porto Alegre.
CAMARGO, S. S.; ENGEL, P. M. A Heuristic Approach for Dimensionality Reduction
in Neural Modeling. In: IV International Symposium on Mathematical and
Computational Biology, Biomat, 2007.
CAMARGO, S. S.; ENGEL, P. M. MiRABIT: A new algorithm for mining association
rules. In: INTERNATIONAL CONFERENCE OF THE CHILEAN COMPUTER
SCIENCE SOCIETY, SCCC, 22, 2002, Proceedings... Copiap: IEEE Press, 2002.
CAMARGO, S. S.; ENGEL, P. M. Time Series Prediction with Focused Time Lagged
Feed-Forward Networks. In: INTERNATIONAL SYMPOSIUM ON FORECASTING,
ISF, 25, 2005, San Antonio, Texas, 2005. p. 123.
CAMARGO, S. S. ; ENGEL, P. M. Uma nova mtrica para reduo de
dimensionalidade em modelos de aprendizado neural. In: CONGRESO ARGENTINO
DE CINCIAS DE LA COMPUTACIN, CACIC, XV, 2009, Anales San Salvador
de Jujuy, 2009.
CAMARGO, S. S. ; ENGEL, P. M. A Progressive Enhancement Neural Model to
Predict Reservoir Quality in Sandstones. In: Third Southern Conference on
103
Computational Modeling, 2010, Rio Grande, Brasil. 2010 Third Southern Conference
on Computational Modeling, 2010-a. IEEE Press. (aceito para publicao)
CAMARGO, S. S. ; ENGEL, P. M.. A Progressive Enhancement Neural Model to
Predict Reservoir Quality in Sandstones. Vetor (FURG), 2010-b. (aceito para
publicao)
CAMPOS, R.; CAMARGO, S. S.; ENGEL, P. M.; SILVA, S. C.; GONZALEZ, F. H.
D. Use of metabolic indicators to predict milk quality using an artificial neural network
based model. In: CONGRESS OF THE INTERNATIONAL SOCIETY OF ANIMAL
CLINICAL BIOCHEMISTRY, ISACB, 12, 2006, Istanbul Turquia, 2006.
CIOS, K. J. et al. Data Mining: A knowledge discovery approach. New York:
Springer, 2007.
COVER, T.; HART, P. Nearest Neighbor Pattern Classification. IEEE Transactions
on Information Theory. 13, 1967. p. 21-27.
COVER, T. M.; THOMAS, J. A. Elements of Information Theory, 2. ed. New Jersey:
John Wiley and Sons, 2006.
DALGAARD, P. Introductory Statistics with R. New York: Springer, 2002.
EFFROYMSON, M. A. Multiple regression analysis, In: A. Ralston, and H. S. Wilf
(Eds), Mathematical Methods for Digital Computers, Wiley, New York, 1960.
p.191-203.
ENGEL, P. M. Criao de Modelos da Qualidade de Reservatrios pela Aplicao
de Tcnicas de Descoberta de Conhecimento sobre Parmetros Petrogrficos e
Petrofsicos de Arenitos DC3PA, 2005. 9 f. Projeto de Pesquisa Instituto de
Informtica, UFRGS, Porto Alegre.
FAYYAD, U. M. et al. From data mining to knowledge discovery: an overview. In:
Fayyad, U. M. et al. Advances in Knowledge discovery and data mining. Menlo Park:
MIT Press, 1996. p. 37-54.
FREEMAN, J. A.; SKAPURA, D. M. Neural networks: algorithms, applications and
programming techniques. New York: Addison-Wesley, 1991.
FRICK, M. The Knowledge pyramid: a critique of the DIKW hierarchy. Journal
of Information Science. Vol. 35, N. 2. 2009. p. 131-142.
FOUNTAIN, T.; ALMUALLIM, H.; DIETTERICH, T. G. Learning with many
irrelevant features. Technical Report, UMI Order Number: 91-30-04, Oregon State
University, 1991.
FUKUNAGA, K. Introduction to Statistical Pattern Recognition. 2. ed. New York:
Academic Press, 1990.
GAONA, R. C. Modelagem da composio qumica do leite atravs de indicadores
metablicos em vacas leiteiras de alta produo. 2005. 114 f. Tese de doutorado
Faculdade de Veterinria, UFRGS, Porto Alegre.
104
105
106
NAVOT, A. et al. Nearest neighbor based feature selection for regression and its
application to neural activity. In: Advances in Neural Information Processing
Systems V. 18, 2006. p. 995-1002, MIT Press.
OLSON, D. L.; DELEN, D. Advanced Data Mining Techniques. Berlin: Springer
Verlag, 2008.
PANINSKI, L.; PILLOW, J.; LEWI, J. Statistical models for neural encoding,
decoding, and optimal stimulus design. In: Progress in Brain Research V. 165, 2007.
p. 493-507, Elsevier.
QUINLAN, J. R. Induction of Decision Trees. Machine Learning. v. 1, n. 1, 1986. p.
81-106.
QUINLAN, J. R. C4.5: Programs for Machine Learning. San Mateo, CA: Morgan
Kaufmann, 1993.
RESTA, P. Information and Communication Technologies in Teacher Education:
A Planning Guide. Paris: UNESCO, 2002.
RIEDMILLER, M.; BRAUN, H. A direct adaptive method for faster backpropagation
learning: The RPROP algorithm. In Proc. of the IEEE Intl. Conf. on Neural
Networks, 1993. p. 586-591, San Francisco.
RUD, O. P. Data mining cookbook: modeling data for marketing, risk and
customer relationship management. New York: John Wiley & Sons, 2001.
RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. New
Jersey: Prentice-Hall, 1995.
SARKER, R. A.; ABBASS, H. A.; NEWTON, C. Heuristic & Optimization for
Knowledge Discovery. London: Idea Group Publishing, 2002.
SOUMEN, C. Data Mining: Know it all. Burlington: Elsevier, 2009.
SUMATHI, S.; SIVANANDAM, S. N. Introduction to Data Mining and its
applications. Berlin: Springer-Verlag, 2006.
SYMEONIDIS, A. L.; MITKAS, P. A. Agent intelligence through data mining. New
York: Springer, 2005.
TAYLOR, B. J. (Editor) Methods and Procedures for the verification and validation
of artificial neural networks. New Jersey: Springer, 2006.
TENENBAUM, J. B., DE SILVA, V.; LANGFORD, J. C. A global geometric
framework for nonlinear dimensionality reduction. In: Science Magazine, V.290
N.5500, 2000. p. 2319-2323.
THEODORIDIS, S.; KOUTROUMBAS, K. Pattern Recognition. 2. ed. London:
Academic Press, 2003.
TSIEN, J. S. The Memory Code. Scientific American, New York, v. 297, n.1, 2007. p.
52-59.
107