Você está na página 1de 40

CAPTULO

ONLINE
6
Redes Neurais
para Data Mining
Objetivos de aprendizado
Entender o conceito e os diferentes tipos de redes neurais articiais (RNA)
Aprender as vantagens e limitaes da RNA
Entender como as redes neurais de retropropagao aprendem
Entender todo o processo de uso das redes neurais
Reconhecer a ampla variedade de aplicaes de redes neurais
A
s redes neurais so ferramentas avanadas de data mining usadas quando outras tcnicas no pro-
duzem modelos preditivos satisfatrios. Como o termo indica, as redes neurais tm uma capacida-
de de modelagem de inspirao biolgica, mas so essencialmente ferramentas de modelagem estats-
tica. Neste captulo, estudaremos os fundamentos da modelagem de redes neurais, algumas aplicaes
especcas e o processo de implementao de um projeto de rede neural.
6.1 Vinheta de abertura: Usando redes neurais para prever os sabores da cerveja por meio de
anlise qumica
6.2 Conceitos bsicos das redes neurais
6.3 Aprendizagem em redes neurais articiais (RNA)
6.4 Desenvolvendo sistemas baseados em redes neurais
6.5 Um exemplo de projeto de rede neural
6.6 Outros paradigmas das redes neurais
6.7 Aplicaes de redes neurais articiais
6.8 Demonstrao de um software de rede neural
6.1

VINHETA DE ABERTURA: USANDO REDES NEURAIS PARA PREVER OS
SABORES DA CERVEJA POR MEIO DE ANLISE QUMICA
A Coors Brewers Ltd., estabelecida em Burton-upon-Trent, capital da cerveja na Gr-Bretanha,
orgulha-se de ter as principais marcas de cerveja do Reino Unido, uma participao de 20% no
mercado, anos de experincia e os melhores prossionais no ramo. As marcas populares incluem
Carling (a lager mais vendida do pas), Grolsch, Coors Fine Light Beer, Sol e Korenwolf.
W6-2 Business Intelligence
Problema
O cliente de hoje est diante de uma variedade de opes em termos de bebidas. A escolha de
um consumidor depende de diversos fatores, como nimo, local e ocasio. O objetivo da Coors
assegurar que o cliente escolha sempre uma de suas marcas.
Segundo a empresa, criatividade a chave para ser bem-sucedido no longo prazo. Para ser a
marca escolhida pelo cliente, a Coors precisa ser criativa e previdente quanto ao estado de nimo do
cliente. Uma questo importante relacionada cerveja o sabor; cada cerveja tem um sabor prprio.
Esses sabores so determinados por meio de anlises sensoriais. Essas anlises, porm, levam tempo.
Se fosse possvel reconhecer o sabor da cerveja com base somente na sua composio qumica, have-
ria novas possibilidades de criar cervejas que atenderiam s expectativas dos clientes.
A relao entre anlise qumica e sabor da cerveja ainda no foi totalmente entendida. Exis-
tem muitos dados sobre sua composio qumica e anlise sensorial. A Coors precisava de um
mecanismo que ligasse esses dois itens. As redes neurais foram aplicadas para criar uma ligao
entre composio qumica e anlise sensorial.
Soluo
Ao longo dos anos, a Coors Brewers Ltd. acumulou uma quantidade signicativa de dados relacio-
nados anlise do produto nal, completada pelos dados sensoriais fornecidos por analistas internos.
Alguns dos dados analticos de entrada e dos dados sensoriais de sada so mostrados a seguir:
Dados analticos: entrada Dados sensoriais: sada
lcool lcool
Cor stere
Amargor calculado Maltoso
Acetato de etila Granuloso
Acetato de isobutila Queimado
Butirato de etila Lupuloso
Acetato de isoamila Caramelado
Hexanoato de etila Adocicado
Uma nica rede neural, restrita a uma nica qualidade e sabor, foi usada primeiramente para
modelar a relao entre os dados analticos e sensoriais. A rede neural baseava-se em um pacote de so-
lues fornecido pela NeuroDimension, Inc. (nd.com). A rede neural era composta de uma arquitetura
tipo perceptron multicamadas (MLP) com duas camadas escondidas. Os dados foram padronizados
dentro da rede, com isso possibilitando a comparao entre os resultados dos diversos dados sensoriais
de sada. A rede neural foi treinada (para aprender a relao entre os dados de entrada e sada) pela
apresentao de muitas combinaes de associaes relevantes de dados de entrada/sada. Quando
no havia melhoria observada no erro da rede nos ltimos 100 passos, o treino era automaticamente
concludo. O treinamento foi executado 50 vezes a m de garantir que um erro da rede consideravel-
mente mdio pudesse ser calculado para ns de comparao. Antes da execuo de cada treinamento,
um diferente conjunto de dados de treinamento e de validao cruzada foi apresentado atravs da
distribuio aleatria dos registros dos dados-fonte, removendo assim qualquer predisposio.
Essa tcnica gerou resultados insatisfatrios devido a dois fatores importantes. Primeiro, con-
centrar-se em uma nica qualidade do produto signicava que a variao nos dados era bastante
baixa. A rede neural no poderia extrair relaes teis dos dados. Segundo, era provvel que so-
mente um subconjunto dos dados de entrada fornecidos tivesse um impacto no sabor selecionado
de cerveja. O desempenho da rede neural foi afetado pelo rudo criado pelos dados de entrada
que no tinham impacto no sabor.
Captulo 6 Redes Neurais para Data Mining W6-3
Uma variedade de produtos mais diversicada foi includa no conjunto de treinamento a m
de abranger o primeiro fator. Era mais desaador identicar os dados analticos de entrada mais
importantes. Esse desao foi enfrentado atravs do uso de um switch de software que permitiu
rede neural ser treinada com todas as combinaes possveis de dados de entrada. O switch no
foi usado para desativar um dado de entrada signicativo; se o dado de entrada signicativo fosse
desativado, poderamos esperar que o erro da rede aumentasse. Se o dado de entrada desativado
fosse insignicante, ento o erro da rede permaneceria inalterado ou seria reduzido devido
remoo do rudo. Essa abordagem chamada de busca exaustiva porque todas as combinaes
possveis so avaliadas. Embora conceitualmente simples, a tcnica era computacionalmente im-
praticvel com dados de entrada numerosos; o nmero de combinaes possveis era de 16,7
milhes por sabor.
Era necessrio um mtodo mais eciente de busca de dados de entrada relevantes. Um algo-
ritmo gentico era a soluo para o problema. Esse algoritmo era capaz de controlar os diferentes
switches de entrada em resposta condio de erro da rede neural. O objetivo do algoritmo
gentico era minimizar a condio de erro da rede. Quando esse mnimo fosse atingido, as con-
guraes do switch identicariam os dados analticos de entrada que estivessem mais propensos
a prever o sabor.
Resultados
Aps determinar quais dados de entrada eram relevantes, foi possvel identicar quais sabores
poderiam ser previstos com mais preciso. A rede foi treinada vrias vezes usando os dados de
entrada relevantes previamente identicados. Antes da execuo de cada treinamento, os dados
da rede foram randomizados para garantir que um conjunto diferente de dados de treinamento e
validao cruzada fosse usado. O erro da rede foi registrado aps a execuo de cada treinamento.
O conjunto de teste usado para avaliar o desempenho da rede treinada continha aproximadamente
80 registros dos dados de amostragem. A rede neural previu com preciso alguns sabores atravs
do uso de dados qumicos de entrada. O sabor queimado foi previsto com um coeciente de
correlao de 0,87.
Atualmente, um nmero limitado de sabores previsto atravs do uso de dados analticos.
A resposta sensorial complexa, com muitas interaes em potencial e limites de sensibilidade
variveis. A anlise instrumental padro tem parmetros gerais, e por motivos econmicos e pr-
ticos, muitos compostos avorizantes no so medidos. A relao entre sabor e anlise pode ser
efetivamente modelada somente se um grande nmero de analitos que contribuem para o sabor
for considerado. Ademais, alm das substncias avorizantes comuns, contribuintes fsicos e de
paladar tambm devem ser considerados no perl sensorial geral.
Com o desenvolvimento dos parmetros de entrada, a preciso dos modelos de rede neural
ser melhorada.
Fontes: C.I. Wilson and L.Threapleton, Application of Articial Intelligence for Predicting Beer Flavours
from Chemical Analysis, Proceedings of the 29th European Brewery Congress, Dublin, May 17-22, 2003,
neurosolutions.com/resources/apps/beer.html (acessado em abril de 2006); R. Nischwitz, M. Goldsmith,
M. Lees, P. Rogers and L. MacLeod, Developing Functional Malt Specications for Improved Brewing
Performance, The Regional Institute Ltd., regional.org.au/au/abts/1999/nischwitz.htm (acessado em abril
de 2006); and coorsbrewers.com (acessado em abril de 2006).
Questes sobre a vinheta de abertura
1. Por que o sabor da cerveja importante para a rentabilidade da Coors?
2. Qual o objetivo da rede neural usada na Coors?
3. Por que os resultados iniciais da rede neural da Coors eram insatisfatrios, e o que foi feito
para melhor-los?
W6-4 Business Intelligence
4. Quais benefcios a Coors poder obter caso esse projeto seja bem-sucedido?
5. Quais modicaes voc apresentaria para melhorar os resultados da predio de sabor da
cerveja?
O que podemos aprender com esta vinheta?
Como ser visto neste captulo, as aplicaes de redes neurais so usadas em muitas reas, desde
problemas comerciais clssicos de avaliao da capacidade de nanciamento de pessoas at apli-
caes de manufatura, segurana e sade. Essa vinheta ilustra uma aplicao inovadora em um
cenrio onde a habilidade humana pode ser considerada a nica maneira de avaliar a qualidade. A
vinheta mostra que a imaginao de um analista a nica limitao para explorar aplicaes de
tcnicas de data mining em geral e de redes neurais especcamente. Tambm aprendemos que,
em muitas aplicaes da vida real, temos de combinar mais de uma tcnica avanada a m de criar
uma aplicao til. Nessa situao, as redes neurais foram combinadas com algoritmos genticos,
mas outras combinaes tambm so possveis.
6.2

CONCEITOS BSICOS DAS REDES NEURAIS
Redes neurais representam uma metfora do crebro para processamento da informao. Es-
ses modelos so biologicamente inspirados e no so uma rplica exata de como o crebro
realmente funciona. Redes neurais tm se revelado sistemas muito promissores em muitas apli-
caes de previso e de classicao comercial devido a sua capacidade de aprender a partir
dos dados, sua natureza no paramtrica (ou seja, sem hipteses estritas) e sua capacidade de
generalizar. Computao neural refere-se a uma metodologia de reconhecimento de padro
para aprendizado da mquina. O modelo resultante da computao neural freqentemente
chamado de rede neural articial (RNA) ou rede neural. Redes neurais tm sido usadas em
muitas aplicaes comerciais para reconhecimento de padro, previso, predio e classica-
o. Computao de rede neural o principal componente de qualquer conjunto de ferramenta
de data mining (veja Captulo 4). Aplicaes de redes neurais so muito usadas em nanas,
marketing, manufatura, operaes, sistemas de informao e assim por diante. Por isso, dedi-
camos este captulo ao desenvolvimento de uma melhor compreenso dos modelos, mtodos e
das aplicaes de rede neural.
O crebro humano possui recursos surpreendentes para o processamento da informao e
para a resoluo de problemas com os quais computadores modernos no conseguem competir
em muitos aspectos. Foi pressuposto que um modelo ou sistema que instrudo e auxiliado pelos
resultados de pesquisas sobre o crebro, com uma estrutura similar s redes neurais biolgicas,
poderia apresentar uma funcionalidade inteligente semelhante. Com base nessa suposio bottom-
up, a RNA (tambm conhecida como modelos conexionistas, modelos de processamento paralelo
distribudo, sistemas neuromrcos ou simplesmente redes neurais) tem sido desenvolvida como
modelos biologicamente inspirados e plausveis para diversas tarefas.
Redes neurais biolgicas so compostas de muitos neurnios biolgicos primitivos com-
pactamente interconectados. Cada neurnio possui axnios e dendritos, projees semelhan-
tes a dedos que permitem ao neurnio comunicar-se com seus neurnios vizinhos atravs da
transmisso e do recebimento de sinais qumicos e eltricos. Mais ou menos semelhante
estrutura de seus colegas, a RNA composta de elementos de processamento simples e inter-
conectados chamados neurnios articiais. No processamento da informao, os elementos de
processamento em uma RNA funcionam de maneira simultnea e coletiva em um modo seme-
lhante aos neurnios biolgicos. A RNA possui algumas caractersticas desejveis similares
quelas das redes neurais biolgicas, como os recursos de aprendizagem, auto-organizao e
tolerncia ao erro.
Captulo 6 Redes Neurais para Data Mining W6-5
Avanando em um caminho sinuoso, a RNA investigada por pesquisadores h mais de
meio sculo. O estudo formal da RNA comeou com o trabalho pioneiro de McCulloch e Pitts,
em 1943. Encorajados pelos resultados de experimentos e observaes biolgicos, McCulloch e
Pitts (1943) apresentaram um modelo simples de um neurnio articial binrio que capta algu-
mas funes de um neurnio vivo. Considerando as mquinas de processamento de informao
como um meio para a modelagem do crebro, McCulloch e Pitts criaram seu modelo de rede
neural usando vrios neurnios articiais binrios interconectados. Liderada por um grupo de
pesquisadores, a pesquisa sobre redes neurais era muito popular no m dos anos 1950 e incio
dos anos 1960. Aps uma anlise completa de um modelo de rede neural antigo (chamado de
perceptron, que no usava camada escondida) e tambm uma avaliao pessimista do potencial
da pesquisa por Minsky e Papert, em 1969, o interesse pelas redes neurais diminuiu.
Durante as ltimas duas dcadas, houve um ressurgimento empolgante nos estudos de
RNA devido introduo de novas topologias de rede, novas funes de ativao e novos
algoritmos de aprendizado, alm do progresso na neurocincia e na cincia cognitiva. De um
lado, os avanos em teoria e metodologia superaram muitos obstculos que atrapalharam a
pesquisa sobre redes neurais h algumas dcadas. Evidenciadas pelos resultados fascinantes
de diversos estudos, as redes neurais esto ganhando aceitao e popularidade. Por outro lado,
como solucionadora de problemas complexos, a RNA tem sido usada para resolver numerosos
problemas em uma variedade de situaes de aplicao. Os recursos desejveis no processa-
mento de informao neural tornam as redes neurais atraentes para a resoluo de problemas
complexos. O sucesso inicial das aplicaes de rede neural inuenciou o interesse renovado
da indstria e das empresas.
Redes neurais biolgicas e articiais
O crebro humano composto de clulas especiais chamadas neurnios. Essas clulas no mor-
rem quando uma pessoa ferida (todas as outras clulas multiplicam-se para se substiturem e
ento morrerem). Esse fenmeno pode explicar o porqu de guardarmos informaes. O depsito
de informaes abarca conjuntos de neurnios. Em um crebro humano, o nmero estimado de
neurnios de 50 a 150 bilhes, dos quais existem mais de 100 tipos diferentes. Os neurnios so
divididos em grupos chamados redes. Cada rede contm alguns milhares de neurnios altamente
interconectados. Por isso, o crebro pode ser visto como uma coleo de redes neurais.
A capacidade de aprender e reagir a mudanas em nosso ambiente requer inteligncia. O
crebro e o sistema nervoso central controlam o raciocnio e o comportamento inteligente. Pes-
soas que sofrem danos cerebrais tm diculdade de aprendizado e reao a ambientes variveis.
Mesmo assim, as partes no danicadas do crebro podem muitas vezes compensar com novo
aprendizado.
Uma parte de uma rede composta de duas clulas mostrada na Figura 6.1. A clula inclui em
si um ncleo (a parte de processamento central da clula). esquerda da clula 1, os dendritos
fornecem sinais de entrada para a clula. direita, o axnio envia sinais de sada para a clula
2 atravs dos terminais do axnio. Esses terminais unem-se aos dendritos da clula 2. Os sinais
podem ser transmitidos inalterados, ou podem ser alterados pelas sinapses. Uma sinapse capaz
de aumentar ou diminuir a intensidade da ligao entre os neurnios e estimular ou inibir um
neurnio subseqente. a que a informao armazenada.
Um modelo de RNA emula uma rede neural biolgica. Na verdade, a computao neural usa
um conjunto muito limitado de conceitos provenientes dos sistemas neurais biolgicos (veja Insi-
ghts de tecnologia 6.1). mais uma analogia ao crebro humano do que um modelo preciso dele.
Os conceitos neurais geralmente so implementados como simulaes de software dos processos
paralelos que envolvem os elementos de processamento (tambm chamados neurnios articiais
ou ns neurais) interconectados em uma arquitetura de rede. O neurnio articial recebe sinais de
W6-6 Business Intelligence
entrada anlogos aos impulsos eletroqumicos que os dendritos dos neurnios biolgicos recebem
de outros neurnios. Os sinais de sada do neurnio articial correspondem aos sinais enviados do
neurnio biolgico atravs do seu axnio. Esses sinais articiais podem ser mudados pelos pesos,
de maneira semelhante s mudanas fsicas que ocorrem nas sinapses (veja Figura 6.2).
Alguns paradigmas de RNA foram propostos para aplicaes em vrios domnios de proble-
ma. Para um exemplo, veja o Caso de Aplicao 6.2. Talvez a maneira mais fcil de diferenciar
os diversos modelos seja com base em como esses modelos emulam estruturalmente o crebro
humano, a maneira na qual o modelo neural processa as informaes e como os modelos neurais
aprendem a executar as tarefas designadas.
Como eles so biologicamente inspirados, os principais elementos de processamento de uma
rede neural so neurnios singulares, semelhantes aos neurnios do crebro. Esses neurnios ar-
ticiais recebem a informao total de outros neurnios ou estmulos externos de entrada, rea-
lizam uma transformao nas entradas e, ento, passam a informao transformada para outros
neurnios ou estmulos externos de sada. Isso semelhante a como atualmente se pensa que o
crebro humano funciona. Passar informao de um neurnio para outro pode ser pensado como
uma maneira de ativar ou desencadear uma reao de determinados neurnios com base nas infor-
maes ou nos estmulos recebidos.
Dendritos
Ncleo
Corpo
Clula (neurnio) 1
Axnio
Sinapse
Clula (neurnio) 2
Figura 6.1 Parte de uma rede: duas clulas biolgicas interconectadas.
Neurnio j
w
ij
x
i
w
ij
w
2j
w
1j
x
1
x
2
x
i
Entradas
Pesos
Totais Funo de transferncia
Y
j
Sada
Figura 6.2 Processamento da informao em um neurnio articial.
Captulo 6 Redes Neurais para Data Mining W6-7
Portanto, como a informao processada por uma rede neural inerentemente uma funo
da sua estrutura. As redes neurais podem ter uma ou mais camadas de neurnios. Eles podem
estar altamente ou completamente interconectados, ou somente camadas especcas podem es-
tar conectadas. As ligaes entre neurnios tm um peso associado. Em essncia, o conheci-
mento que a rede possui condensado nesses pesos de interconexo. Cada neurnio calcula
um total ponderado dos valores de entrada do neurnio, transforma essa entrada e repassa seu
valor neural como entrada para os neurnios subseqentes. Normalmente, embora no sempre,
esse processo de transformao da entrada/sada no nvel individual do neurnio feito de modo
no-linear.
A lista a seguir mostra algumas das relaes entre re-
des biolgicas e articiais:
Biolgica Articial
Corpo N
Dendritos Entrada
Axnio Sada
Sinapse Peso
Velocidade baixa Velocidade alta
Muitos neurnios (10
9
) Poucos neurnios (dezenas
centenas de milhares)
Zahedi (1993) falou sobre um papel duplo para
RNA. Adotamos os conceitos do mundo biolgi-
co para melhorar a estrutura dos computadores. A
tecnologia de RNA usada para processamento de
informaes complexas e inteligncia de mquina.
Por outro lado, as redes neurais tambm podem ser
usadas como modelos biolgicos simples para testar
hipteses sobre processamento de informao neu-
ronal biolgico real. No contexto de data mining,
estamos interessados, naturalmente, no uso das redes
neurais para aprendizado de mquina e processamen-
to de informao.
INSIGHTS DE TECNOLOGIA 6.1
A relao entre as redes neurais biolgicas e articiais
Fontes: L. Medsker e J. Liebowitz, Design and Development of Expert Systems and Neural Networks, Macmillan, New
York, 1994, p.163; e F. Zahedi, Intelligent Systems for Business: Expert Systems with Neural Networks, Wadsworth, Bel-
mont, CA, 1993.
O FIINA (Forum of International Irregular Network
Access) estima que as fraudes em telecomunicaes
resultem em uma perda de US$55 bilhes por ano em
todo o mundo. A maior operadora de telecom da fri-
ca do Sul estava perdendo mais de US$37 milhes
por ano devido fraude. A fraude de assinatura na
qual um cliente fornece informaes pessoais fraudu-
lentas ou fornece informaes pessoais vlidas e, em
seguida, desaparece era a maior causa de perda de
receitas da empresa. No momento em que a operado-
ra de telecom era alertada sobre a fraude, os frauda-
dores j tinham mudado para outras vtimas. Outros
tipos de fraude incluem que adulterao e clonagem
de cartes telefnicos. Na fraude clipada, o fraudador
grampeia a linha telefnica do cliente e, ento, ven-
de ligaes internacionais por uma frao das taxas
normais.
O Minotaur, desenvolvido pela Neural Technolo-
gies (neuralt.com), foi implementado para evitar frau-
des. Ele usa uma mistura hbrida de sistemas inteligen-
tes e tcnicas computacionais tradicionais para fornecer
assinatura do cliente e monitoramento de ligao em
tempo real para deteco de fraude. Ele processa dados
de diversos campos, como registros de dados de evento
Redes neurais ajudam a reduzir fraude nas telecomunicaes
CASO DE APLICAO 6.2
W6-8 Business Intelligence
Elementos de RNA
Uma rede neural composta de elementos de processamento organizados de diferentes maneiras
para formar a estrutura da rede. A unidade bsica de processamento o neurnio. Uma srie de
neurnios est organizada dentro de uma rede. Existem muitas formas de organizar os neurnios;
elas so referidas como topologias. Uma abordagem popular, conhecida como o paradigma da
retropropagao, permite que todos os neurnios liguem a sada em uma camada entrada da
camada seguinte, mas no permite qualquer ligao de feedback (Haykin, 1999). Esse o para-
digma mais usado.
Elementos de processamento
Os elementos de processamento (PE) de uma RNA so os neurnios articiais. Cada um dos neur-
nios recebe entradas, as processa e entrega uma nica sada, como mostrado na Figura 6.2. A entrada
pode ser dados brutos de entrada ou a sada de outros elementos de processamento. A sada pode ser
o resultado nal (p.ex., 1 signica sim, 0 signica no) ou pode ser entradas para outros neurnios.
Estrutura da rede
Cada RNA composta de um conjunto de neurnios, agrupados em camadas. Uma estrutura tpica
mostrada na Figura 6.3. Observe as trs camadas: entrada, intermediria (chamada de camada
escondida) e sada. Uma camada escondida uma camada de neurnios que recebe entradas
provenientes da camada anterior e as converte em sadas para novo processamento. Diversas ca-
madas escondidas podem ser colocadas entre as camadas de entrada e sada, embora seja comum
usar somente uma camada escondida. Nesse caso, a camada escondida converte entradas em uma
combinao no-linear e transfere as entradas transformadas para a camada de sada. A interpre-
tao mais comum da camada escondida como um mecanismo de extrao de atributos. Isto ,
a camada escondida converte as entradas originais no problema em algumas combinaes de alto
nvel de tais entradas.
(p.ex., switch/CDR, SS#7, IPDRs, PIN/autenticao) e
dados do cliente (p.ex., fatura e pagamento, ponto de
venda, fornecimento), usando uma capacidade de an-
lise multistream. As fraudes so detectadas em vrios
nveis, como, em uma base individual usando conhe-
cimento especco sobre o hbito do assinante, e em
uma base global, usando conhecimento genrico sobre
o hbito do assinante e padres de fraude conhecidos.
A capacidade neural do Minotaur quer dizer que ele
aprende a partir da experincia, fazendo uso de feed-
back para manter-se atualizado em relao s alteraes
nos padres de fraude. Uma combinao de dados de
ligao/rede e informaes do assinante delineada e,
em seguida, processada, usando tcnicas neurais inteli-
gentes, baseadas em casos e regras. Provveis fraudes
so identicadas, reunidas em casos e acompanhadas
at sua concluso por meio de um poderoso e exvel
processo operacional baseado em uxo de trabalho.
Nos primeiros trs meses de instalao desse
software baseado em rede neural:
A perda mdia devido fraude por caso foi re-
duzida em 40%.
O tempo de deteco foi reduzido em 80%.
O tempo mdio necessrio para analisar casos
suspeitos de fraude foi reduzido em 75%.
O ndice mdio de acerto na deteco foi melho-
rado em 74%.
A combinao de tecnologias neurais, baseadas
em casos e em regras, oferece uma taxa de deteco
de fraude superior quela dos sistemas convencio-
nais. Alm disso, a capacidade de anlise multistream
o torna extremamente preciso.
Fontes: Combating Fraud:How a Leading Telecom Com-
pany Solved a Growing Problem, neuralt.com/iqs/dlsfa.
list/dlcpti.7/downloads.html; A. Shukla, Neural Te-
chnologies and Sevis Partner to Eliminate Fraudulent
Calls in Fixed and Mobile Networks, February 3, 2006,
news.tmcnet.com/news/-neural-sevis-fraud-mobi-
le/2006/02/03/1340423.htm (acessado em abril de 2006);
P.A. Estvez, M.H. Claudio, e C.A. Perez, Prevention in
Telecommunications Using Fuzzy Rules and Neural Ne-
tworks, cec.uchile.cl/~pestevez/RI0.pdf (acessado em
abril de 2006); e Members and Associate Members Success
Stories, gsm.org/about/membership/success/nt.shtml
(acessado em abril de 2006).
Captulo 6 Redes Neurais para Data Mining W6-9
Como uma rede biolgica, uma RNA pode ser organizada de vrias maneiras (ou seja, to-
pologias ou arquiteturas); isto , os neurnios podem ser interconectados de diferentes formas.
Por isso, a RNA aparece em vrias conguraes chamadas arquiteturas. Quando a informao
processada, muitos dos elementos de processamento realizam seus clculos ao mesmo tempo.
Esse processamento paralelo assemelha-se ao modo como o crebro funciona, e difere do pro-
cessamento serial da computao convencional.
Processamento de informao da rede
Uma vez que a estrutura de uma rede neural determinada, a informao pode ser processada.
Agora, apresentamos os principais conceitos relacionados ao processamento.
Entradas Cada entrada corresponde a um nico atributo. Por exemplo, se o problema fosse
decidir sobre aprovar ou negar um emprstimo, alguns atributos poderiam ser o ndice de rendi-
mento, idade e propriedade imobiliria do requerente. O valor numrico, ou representao, de um
atributo a entrada da rede. Vrios tipos de dados, como texto, imagens e voz, podem ser usados
como entradas. Talvez seja necessrio um pr-processamento para converter os dados em entradas
relevantes de dados simblicos ou graduar os dados.
Sadas As sadas de uma rede contm a soluo para um problema. Por exemplo, no caso
de uma solicitao de emprstimo, as sadas podem ser sim ou no. A RNA atribui valores
numricos s sadas, como 1 para sim e 0 para no. O objetivo da rede calcular os valores da
sada. Muitas vezes, necessrio o ps-processamento das sadas porque algumas redes usam
duas sadas: uma para sim e outra para no. comum ter de arredondar as sadas para mais
prximo de 0 ou 1.
Pesos de conexo Os pesos de conexo so os principais elementos em uma RNA. Eles expres-
sam a intensidade relativa (ou valor matemtico) dos dados de entrada ou as muitas conexes que
transferem dados de uma camada para outra. Em outras palavras, os pesos expressam a importn-
cia relativa de cada entrada para um elemento de processamento e, no nal, as sadas. Os pesos
so fundamentais j que armazenam os padres de informao aprendidos. atravs de ajustes
freqentes dos pesos que uma rede aprende.
= elemento de processamento
Camada
de entrada
Camada
escondida
Camada
de sada
PE
PE PE
PE
PE
PE PE
J
PE
Funo de
transferncia f
Total
ponderado
Y
j
X
1
W
1j
W
2j
W
3j
W
4j
X
2
X
3
X
4
Figura 6.3 Rede neural com uma camada escondida.
W6-10 Business Intelligence
Funo de soma A funo de soma calcula os totais ponderados de todos os elementos de
entrada que so inseridos em cada elemento de processamento. Uma funo de soma multiplica
cada valor de entrada pelo seu peso e adiciona os valores para um total ponderado Y. A frmula
para n entradas em um elemento de processamento (veja Figura 6.4a) :
Para o j neurnio de inmeros neurnios de processamento em uma camada (veja Figura
6.4b), a frmula :
Funo de transformao (transferncia) A funo de soma calcula o estmulo interno,
ou nvel de ativao, do neurnio. Com base nesse nvel, o neurnio pode ou no produzir
uma sada. A relao entre o nvel de ativao interna e a sada pode ser linear ou no-linear. A
relao expressa por um dos vrios tipos de funo de transformao (transferncia). A fun-
o de transformao (transferncia) combina (ou seja, soma) as entradas vindas de outros
neurnios/outras fontes em direo a um neurnio e, em seguida, produz uma sada baseada na
(b) Vrios neurnios (a) Um neurnio
PE elemento de processamento
Y X
1
W
1
+ X
2
W
2
Y
1
X
1
W
11
X
2
W
21
Y
2
X
1
W
12
X
2
W
22
Y
3
X
2
W
23
X
1
X
2
W
21
W
12
W
22
W
11
Y
1
Y
2
Y
3
PE
PE
PE
PE
X
1
X
2
W
23
W
1
W
2
Y
i j
Figura 6.4 Funo de soma para um neurnio (a) e vrios neurnios (b).
Captulo 6 Redes Neurais para Data Mining W6-11
escolha da funo de transferncia. A seleo de uma funo especca afeta o funcionamento
da rede. A funo sigmide (ativao lgica) (ou funo de transferncia sigmide) uma
funo de transferncia em forma de S com variao de 0 a 1, sendo uma funo de transferncia
no-linear comum e til:
Y
T
= 1/(1 + e
Y
)
onde Y
T
o valor transformado (ou seja, padronizado) de Y (veja Figura 6.5).
A transformao modica os nveis de sada para valores aceitveis (normalmente entre 0
e 1). Essa transformao realizada antes que as sadas alcancem o prximo nvel. Sem essa
transformao, o valor da sada torna-se muito grande, especialmente quando existem diversas
camadas de neurnios. Algumas vezes, em vez de uma funo de transformao, usado um valor
limite. Um valor limite um valor barreira para a sada de um neurnio a m de ativar o prximo
nvel de neurnios. Se um valor de sada for menor do que o valor limite, no ser passado para
o prximo nvel de neurnios. Por exemplo, qualquer valor 0,5 ou menor torna-se 0, e qualquer
valor acima de 0,5 torna-se 1. Uma transformao pode acontecer na sada de cada elemento de
processamento, ou ela pode ser realizada somente nos ns nais de sada.
Camadas escondidas
Aplicaes prticas complexas exigem uma ou mais camadas escondidas entre os neurnios de
entrada e sada e um nmero igualmente grande de pesos. Muitas RNAs comerciais incluem trs e,
algumas vezes, at cinco camadas, cada uma contendo de 10 a 1.000 elementos de processamento.
Algumas RNAs experimentais usam milhes de elementos de processamento. Como cada camada
aumenta exponencialmente o esforo de treinamento e tambm aumenta o clculo necessrio, o
uso de mais de trs camadas escondidas raro na maioria dos sistemas comerciais.
Arquiteturas da rede neural
Existem vrios modelos e algoritmos ecazes de rede neural (consulte Haykin, 1999). Alguns dos
mais comuns so retropropagao (progressivas), memria associativa e rede recorrente. A ar-
quitetura de retropropagao mostrada na Figura 6.3. As outras duas arquiteturas so mostradas
nas Figuras 6.6 e 6.7.
Basicamente, o funcionamento de um modelo completo de rede neural acionado pela
tarefa para a qual foi programado. Por exemplo, modelos de rede neural tm sido usados como
classicadores, ferramentas de previso e otimizadores gerais. Como ainda ser mostrado neste
captulo, os classicadores de rede neural normalmente so modelos multicamadas nos quais a
informao passada de uma camada para outra, com o objetivo nal de mapear uma entrada
Funo de soma:
Funo de transformao (transferncia):
Y 3 (0.2) 1(0.4) 2(0.1) 1.2
Y
T
1/(1 e
1.2
) 0.77
Elemento de
processamento
X
1
= 3
X
2
= 1
X
3
= 2
W
1
= 0.2
W
2
= 0.4
W
3
= 0.1
Y = 1.2
Figura 6.5 Exemplo de funes para RNA.
W6-12 Business Intelligence
para uma rede para uma categoria especca, conforme identicado pela sada da rede. Por ou-
tro lado, um modelo neural usado como otimizador pode ser uma nica camada de neurnios,
altamente interconectada, e pode calcular valores de neurnio repetidamente at que o modelo
convirja a um estado estvel. Ento, esse estado estvel representaria uma soluo ideal para o
problema sob anlise.
Entrada 1
Entradas Camada dupla
Camada
escondida
Sada A
F
l
u
x
o

d
e

i
n
f
o
r
m
a

o
p
r
o
g
r
e
s
s
i
v
o
Memria associativa
Sada B
Entrada 2
Sada C
Entrada 3
Figura 6.6 Estruturas de rede neural: uxo progressivo.
Progressiva
Entradas
Entrada 1
Entrada 2
Entrada 3
Entrada 4
Vetor de
entrada
Camada
escondida
Camada
de sada
Conexo
Sada 1
Sada 2
Algoritmos: Retropropagao,
Madaline III.
Sadas de neurnio alimentam de forma
progressiva as camadas subseqentes.
Boa para solucionar problemas de
reconhecimento de padro esttico,
classificao e generalizao
(p.ex., controle de qualidade,
avaliao de crdito).
Sadas
Recorrente
Conexes
de feedback
H indica um neurnio
escondido (sem uma sada visada)
Algoritmos: TrueTime
Sadas de neurnio realimentam
conforme as entradas de neurnio.
Boa para solucionar problemas
dinmicos que dependem de tempo
(p.ex., previso de vendas, anlise
de processo, reconhecimento de
seqncia e gerao de seqncia).
Padro de entrada
Rede de Hopfield
H
H
Neurnio
Entradas
Entrada 1
Entrada 2
Entrada 3
Entrada 4
Vetor de
entrada
Sada 1
Sada 2
Sadas
S
a

d
a
Figura 6.7 Estrutura recorrente comparada com fonte progressiva.
Fonte: Baseado em PC AI, May/June 1992, p.35.
Captulo 6 Redes Neurais para Data Mining W6-13
Por m, como uma rede treinada para executar a tarefa designada outra caracterstica do
modelo identicador. O aprendizado da rede neural pode ocorrer tanto de modo supervisionado
como no supervisionado. No aprendizado supervisionado, um conjunto de treinamento amostral
usado para ensinar a rede sobre seu domnio de problema. Esse conjunto de treinamento de
casos de exemplo (entrada e a sada[s] desejada[s]) repetidamente apresentado rede neural.
A sada da rede no seu formato atual calculada e comparada sada desejada. O algoritmo de
aprendizado o procedimento de treinamento usado por uma RNA. O algoritmo de aprendizado
usado determina como os pesos de interconexo neural so corrigidos devido a diferenas entre
as sadas real e desejada para um membro do conjunto de treinamento. A atualizao dos pesos
de interconexo da rede continua at que o critrio de parada do algoritmo de treinamento seja
encontrado (p.ex., todos os casos devem ser classicados corretamente dentro de um determinado
nvel de tolerncia).
Alternativamente, no aprendizado no supervisionado, no h respostas xadas que a rede
tenta aprender. Ao contrrio, a rede neural aprende um padro atravs de exposio repetida.
Portanto, esse tipo de aprendizado pode ser previsto conforme a rede neural adequadamente se
auto-organiza ou agrupa seus neurnios relacionados determinada tarefa desejada.
Redes neurais progressivas com multicamadas so uma classe de modelos que tem potencial
em problemas de classicao e previso. Como o nome indica, esses modelos consistem estrutu-
ralmente de mltiplas camadas de neurnios. A informao passada por intermdio da rede em
uma nica direo, das camadas de entrada da rede, atravs de uma ou mais camadas escondidas,
em direo camada de sada dos neurnios. Os neurnios de cada camada esto conectados so-
mente aos neurnios da camada subseqente.
Questes de reviso da seo 6.2
1. O que uma RNA?
2. Explique os seguintes termos: neurnio, axnio e sinapse.
3. Como funcionam os pesos em uma RNA?
4. Qual o papel da funo de soma?
5. Qual o papel da funo de transformao?
6.3

APRENDIZAGEM EM RNA
Uma importante considerao sobre RNA o uso de um algoritmo de aprendizado adequado (ou
algoritmo de treinamento). Algoritmos de aprendizado especicam o processo pelo qual uma rede
neural aprende a relao bsica entre entrada e sadas, ou apenas entre entradas. Existem centenas
delas. Em RNA, os algoritmos de aprendizado tambm podem ser classicados como aprendizado
supervisionado e aprendizado no supervisionado (veja Figura 6.8).
O Aprendizado supervisionado usa um conjunto de entradas para as quais as sadas
apropriadas (ou seja, desejadas) so conhecidas. Por exemplo, um conjunto histrico de solici-
taes de emprstimo com xito ou falha de pagamento do emprstimo por parte do requerente
tem um conjunto de parmetros de entrada e sadas conhecidas presumidas. Em um tipo, a
diferena entre as sadas real e desejada usada para calcular as correes dos pesos da rede
neural. Uma variao dessa abordagem simplesmente conrma para cada teste de entrada
se a sada est correta medida que a rede ajusta os pesos em uma tentativa de alcanar os
resultados corretos. Exemplos desse tipo de aprendizado so a retropropagao e a rede de
Hopeld (Hopeld, 1982). O Caso de Aplicao 6.3 ilustra uma aplicao de aprendizado su-
pervisionado na Microsoft, com o intuito de melhorar a taxa de resposta das correspondncias
direcionadas a possveis clientes.
W6-14 Business Intelligence
No aprendizado no supervisionado, apenas estmulos de entrada so mostrados rede. A
rede auto-organizvel; isto , se organiza internamente de modo que cada elemento de proces-
samento escondido responda estrategicamente a um conjunto diferente de estmulos de entrada
(ou grupos de estmulos). No fornecido qualquer conhecimento sobre quais classicaes (ou
Algoritmos de aprendizado
Entrada contnua Entrada binria/delimitada
Supervisionado No supervisionado
Hopfield simples
Produto externo AM
Hamming rede
ART-1
Carpenter/
Grossberg
Supervisionado
Regra delta
Gradiente descendente
Aprendizado competitivo
Neocognitron
Perceptor
Algoritmo de
agrupamento
No supervisionado
ART-3
SOFM
Arquiteturas
Supervisionada
Hopfield
No-linear vs. Linear
Retropropagao
Perceptron multicamadas
Boltzmann
Avaliadoras
SOFM
No supervisionada
ART-1
ART-2
Recorrente
Extratoras
Progressiva
Figura 6.8 Taxonomia de arquiteturas de RNA e algoritmos de aprendizado.
Fonte: Basedo em L. Medsker e J. Liebowitz, Design and Development of Expert Systems and Neural Computing,
Macmillan, New York, 1994, p.166.
A Microsoft, lder mundial em softwares para com-
putadores, sediada em Redmond, Washington, usa
o software de rede neural BrainMaker produzido
pela California Scientic (calsci.com) para maxi-
mizar os rendimentos com mala direta. Todo ano,
a Microsoft envia cerca de 40 milhes de itens de
mala direta para 8,5 milhes de clientes registrados,
com o objetivo de encorajar as pessoas a atualizar
seus softwares ou comprar outros produtos relacio-
nados. Em geral, a primeira correspondncia inclui
todos que esto registrados no banco de dados. O
fundamental direcionar a segunda correspondn-
cia somente queles mais propensos a responder.
Muitas variveis foram inseridas na rede neural
BrainMaker a m de obter resultados produtivos. O
primeiro passo foi identicar as variveis relevan-
tes e eliminar as variveis que no surtiam efeito.
A seguir esto algumas das variveis signicativas:
Redes neurais ajudam a entregar a correspondncia da Microsoft
ao pblico almejado
CASO DE APLICAO 6.3
Captulo 6 Redes Neurais para Data Mining W6-15
seja, sadas) so corretas, e aquelas que a rede infere podem ou no ser signicativas para o de-
senvolvedor da rede (isso til para anlise de cluster). Entretanto, ao determinar parmetros de
modelo, podemos controlar o nmero de categorias nas quais uma rede classica as entradas. De
qualquer maneira, um ser humano deve examinar as categorias nais a m de atribuir signica-
do e determinar a utilidade dos resultados. Exemplos desse tipo de aprendizado so a teoria da
ressonncia adaptativa (ART) (ou seja, uma arquitetura de rede neural que tem como objetivo
ser semelhante ao crebro em modo no supervisionado) e os mapas de caractersticas auto-
organizveis de Kohonen (ou seja, modelos de rede neural para aprendizado da mquina).
Como mencionado anteriormente, muitos paradigmas de rede neural foram propostos para
vrios domnios de tomada de deciso. Um modelo neural adequado para problemas de classi-
cao (p.ex., predio de falncia) o MLP progressivo. Redes multicamadas avaliam continua-
mente os neurnios (ou seja, elementos de processamento), so treinadas de modo supervisionado
e so compostas de uma ou mais camadas de ns (ou seja, ns escondidos) entre os ns de entrada
e sada. Uma rede neural progressiva tpica mostrada na Figura 6.3. Os ns de entrada represen-
tam onde a informao apresentada rede, os ns de sada fornecem a deciso da rede neural,
e os ns escondidos, por meio dos pesos de interconexo, contm o mapeamento adequado das
entradas at as sadas (ou seja, decises).
O algoritmo de aprendizado de retropropagao a maneira padro de implementar um trei-
namento supervisionado para redes neurais progressivas. uma tcnica iterativa do gradiente
descendente planejada para minimizar uma funo de erro entre a sada real da rede e sua sada
desejada, conforme especicado no conjunto de dados de treinamento. O ajuste dos pesos de in-
terconexo, que contm a funo de mapeamento propriamente dita, comea no n de sada onde a
medida de erro inicialmente calculada e, ento, propagada de volta atravs das camadas da rede,
em direo a camada de entrada. Maiores detalhes esto includos na prxima seo.
Recentidade, calculada em nmero de dias, que
avalia a ltima vez que algo foi comprado e re-
gistrado. Em outras palavras, quanto mais recen-
te for a ltima compra do cliente, mais chances
h de ele/ela comprar mais.
Primeira data arquivada, que a data que a pessoa
fez sua primeira compra. Isso uma medida de -
delidade. So altas as chances de um cliente com-
prar novamente se ele/ela for um(a) cliente el.
O nmero de produtos comprados e registrados.
O preo dos produtos comprados e registrados, cal-
culado de acordo com o preo padro de revenda.
O nmero de dias entre a poca em que o produ-
to foi lanado e quando foi comprado; pesquisas
mostraram que pessoas que tendem a comprar
produtos logo que esto disponveis so os prin-
cipais indivduos a serem alcanados.
Outras caractersticas pessoais tambm foram
adicionadas e registradas com respostas sim/no.
Antes do treinamento, a informao obtida a
partir das respostas dos clientes foi inserida em um
formato que pudesse ser usado pela rede, e respostas
sim/no foram transformadas em dados numricos.
Mnimos e mximos foram determinados em varveis
especcas.
Inicialmente, a rede foi treinada com 25 vari-
veis. Os dados foram retirados de sete ou oito campa-
nhas a m de torn-los sortidos e representarem todos
os aspectos do negcio, incluindo os pontos de vista
de Windows e Mac, de produtos de nvel de preo
alto e baixo.
Antes de a Microsoft comear a usar o Brain-
Maker, uma correspondncia comum obteria uma taxa
de resposta de 4,9%. Com o uso do BrainMaker, a taxa
de resposta aumentou para 8,2%. A rede neural foi tes-
tada com dados de 20 campanhas diferentes, no sendo
usadas as respostas conhecidas durante o treinamento.
Os resultados mostraram economias consistentes e
freqentes. Uma correspondncia comum resultou em
uma reduo de custos de 35% para a Microsoft.
Fontes: California Scientic, Maximize Returns on Direct
Mail with BrainMaker Neural Networks Software, calsci.
com/DirectMail.html; e G. Piatesky-Shapiro, ISR: Microsoft
Success Using Neural Network for Direct Marketing, Kdnug-
gets.com/news/94/n9.txt (acessado em maro de 2006).
W6-16 Business Intelligence
O processo de aprendizagem geral da RNA
No aprendizado supervisionado, o processo de aprendizagem indutivo; isto , os pesos de co-
nexo so obtidos de casos existentes. O processo de aprendizagem normal envolve trs tarefas
(veja Figura 6.9):
1. Calcular sadas temporrias.
2. Comparar as sadas com as metas desejadas.
3. Ajustar os pesos e repetir o processo.
Quando sadas existentes esto disponveis para comparao, o processo de aprendizagem
comea pela determinao dos pesos de conexo, atravs de regras ou aleatoriamente. A diferena
entre a sada real (Y ou Y
T
) e a sada desejada (Z) para um determinado conjunto de entradas um
erro chamado delta (em clculo innitesimal, o smbolo grego delta, , signica diferena).
O objetivo minimizar o delta (ou seja, reduzi-lo a 0 se possvel), o que feito pelo ajuste
dos pesos da rede. A soluo alterar os pesos na direo certa, fazendo mudanas que reduzam
o delta (ou seja, erro). Mostraremos como isso feito mais adiante.
O processamento de informao com uma RNA consiste em uma tentativa de reconhecer pa-
dres de atividades (ou seja, reconhecimento de padro). Durante as fases de aprendizagem, os
pesos de interconexo mudam em resposta aos dados de treinamento apresentados ao sistema.
RNAs diferentes calculam o delta de maneiras diferentes, dependendo do algoritmo de apren-
dizado usado. Existem centenas de algoritmos de aprendizado para diversas situaes e congu-
raes; alguns deles sero discutidos ainda neste captulo.
Como a rede aprende
Imagine um nico neurnio que aprende a operao inclusiva OU um problema clssico em l-
gica matemtica. Existem dois elementos de entrada, X
1
e X
2
. Se um ou outro ou ambos possuem
um valor positivo, o resultado tambm positivo. Isso pode ser mostrado como segue:
No
Ajustar
pesos
Calcular
sada
A sada
desejada foi
alcanada?
Sim
Parar
Figura 6.9 Processo de aprendizagem de uma RNA.
Captulo 6 Redes Neurais para Data Mining W6-17
Entradas
Casos X
1
X
2
Resultados desejados
1 0 0 0
2 0 1 1 (positivo)
3 1 0 1 (positivo)
4 1 1 1 (positivo)
O neurnio deve ser treinado para reconhecer os padres de entrada e classic-los de
modo a fornecer as sadas correspondentes. O procedimento apresentar ao neurnio a se-
qncia de quatro padres de entrada fazendo com que os pesos sejam ajustados aps cada
repetio (usando o feedback do erro encontrado atravs da comparao da estimativa com o
resultado desejado). Esse passo repetido at que os pesos convirjam a um conjunto uniforme
de valores que permitam aos neurnios classicar corretamente cada uma das quatro entradas.
Os resultados mostrados na Tabela 6.1 foram gerados no Excel. Nesse exemplo simples, uma
funo limite usada para estimar a soma dos valores de entrada. Aps calcular as sadas, uma
medida do erro (ou seja, delta) entre a sada e os valores desejados usada para atualizar os
pesos, reforando posteriormente os resultados corretos. Em qualquer passo do processo para
um neurnio j, temos:
delta = Z
j
Y
j
onde Z e Y so, respectivamente, as sadas desejada e real. Portanto, os pesos atualizados so:
W
i
(nal) = W
i
(inicial) + alfa delta X
i
onde alfa um parmetro que controla quo rpido o aprendizado acontece. Ele chamado de
taxa de aprendizado. A escolha do parmetro taxa de aprendizado pode ter um impacto em quo
Tabela 6.1 Exemplo de aprendizado supervisionado
Inicial Final
Passo X
1
X
2
Z W
1
W
2
Y Delta W
1
W
2
1 0 0 0 0,1 0,3 0 0,0 0,1 0,3
0 1 1 0,1 0,3 0 1,0 0,1 0,5
1 0 1 0,1 0,5 0 1,0 0,3 0,5
1 1 1 0,3 0,5 1 0,0 0,3 0,5
2 0 0 0 0,3 0,5 0 0,0 0,3 0,5
0 1 1 0,3 0,5 0 0,0 0,3 0,7
1 0 1 0,3 0,7 0 1,0 0,5 0,7
1 1 1 0,5 0,7 1 0,0 0,5 0,7
3 0 0 0 0,5 0,7 0 0,0 0,5 0,7
0 1 1 0,5 0,7 0 0,0 0,5 0,7
1 0 1 0,5 0,7 0 1,0 0,7 0,7
1 1 1 0,7 0,7 1 0,0 0,7 0,7
4 0 0 0 0,7 0,7 0 0,0 0,7 0,7
0 1 1 0,7 0,7 0 0,0 0,7 0,7
1 0 1 0,7 0,7 0 0,0 0,7 0,7
1 1 1 0,7 0,7 1 0,0 0,7 0,7
a
Parmetros: alfa = 0,2; limite = 0,5, a sada zero se o total (W
1
* X
1
+ W
2
* X
2
) no for maior do que 0,5.
W6-18 Business Intelligence
rpido (ou quo corretamente) uma rede neural aprende. Um valor alto para a taxa de aprendizado
pode levar a muitas correes nos valores de peso, resultando em ir e voltar dentre os valores de
peso possveis e nunca atingir o ideal, que pode estar em algum ponto intermedirio das extremi-
dades. Uma taxa de aprendizado muito baixa pode desacelerar o processo de aprendizagem. Na
prtica, um analista de rede neural deve tentar usar muitas opes diferentes de taxas de aprendi-
zado para alcanar o aprendizado ideal.
A maioria das implementaes do processo de aprendizagem tambm inclui um parmetro
de contrabalanceamento chamado momentum para fornecer um equilbrio taxa de aprendizado.
Essencialmente, enquanto a taxa de aprendizado procura corrigir o erro, o momentum procura
desacelerar o aprendizado. Atualmente, muitos dos programas de software disponveis para redes
neurais podem selecionar automaticamente esses parmetros para o usurio ou deixar o usurio
experimentar vrias combinaes diferentes desses parmetros.
Como mostrado na Tabela 6.1, cada clculo usa um dos pares X
1
e X
2
e o valor correspondente
para a operao OU, junto com os valores iniciais W
1
e W
2
dos pesos do neurnio. Inicialmente,
os pesos so determinados como valores aleatrios, e a taxa de aprendizado, alfa, xada baixa.
O delta usado para extrair os pesos nais, que ento se tornam os pesos iniciais na prxima
repetio (ou seja, linha).
Os valores iniciais dos pesos para cada entrada so transformados usando a equao mos-
trada anteriormente a m de determinar os valores que sero usados com a prxima entrada (ou
seja, linha). O valor limite (0,5) xa a sada Y para 1 na prxima linha se o total ponderado de en-
tradas for maior do que 0,5; caso contrrio, Y xado para 0. No primeiro passo, duas das quatro
sadas esto incorretas (delta = 1), e um conjunto homogneo de pesos no foi encontrado. Nos
passos subseqentes, o algoritmo de aprendizado melhora os resultados, at que nalmente cria
um conjunto de pesos que fornece os resultados corretos (W
1
= W
2
= 0,7 no passo 4 da Tabela
6.1). Uma vez determinado, um neurnio com esses valores de peso pode realizar a operao
OU rapidamente.
Ao desenvolver uma RNA, feita uma tentativa de encaixar a caracterstica do problema em
um dos algoritmos de aprendizado conhecidos. Existem programas de software para todos os dife-
rentes algoritmos, como a retropropagao, que descreveremos a seguir. Existem muitas variantes
desse algoritmo, mas as noes centrais de todos eles so semelhantes.
Retropropagao
Retropropagao (reduzido de propagao retrgrada do erro) o algoritmo de aprendizado
supervisionado mais usado na computao neural (Principe et al., 2000) e muito fcil de im-
plementar. Uma rede de retropropagao inclui uma ou mais camadas escondidas. Esse tipo de
rede considerado progressivo porque no h interconexes entre a sada de um elemento de
processamento e a entrada de um n na mesma camada ou em uma camada anterior. Padres
corretos externamente fornecidos so comparados sada da rede neural durante o treinamento
(supervisionado), e o feedback usado para ajustar os pesos at que a rede tenha categorizado
todos os padres de treinamento o mais corretamente possvel (a tolerncia ao erro determina-
da com antecedncia).
Comeando com a camada de sada, os erros entre as sadas real e desejada so usados para
corrigir os pesos das conexes da camada anterior (veja Figura 6.10). Para qualquer neurnio de
sada j, o erro (delta) = (Z
j
Y
j
)(df/dx), onde Z e Y so, respectivamente, as sadas desejada e real.
Usar a funo sigmide, f = [1 + exp(-x)]
-1
, onde x proporcional ao total das entradas ponderadas
para o neurnio, uma maneira ecaz de calcular a sada de um neurnio na prtica. Com essa
funo, a derivada da funo sigmide df/dx = f(1 f) e o erro so uma simples funo das sadas
Captulo 6 Redes Neurais para Data Mining W6-19
desejada e real. O fator f(1 f) a funo logstica, que serve para manter a correo do erro bem
delimitada. Os pesos de cada entrada para o j neurnio so, ento, mudadas em proporo ao
erro calculado. Uma expresso mais complicada pode ser obtida para trabalhar retroativamente
de maneira semelhante a partir dos neurnios de sada atravs das camadas escondidas de modo a
calcular as correes para os pesos associados dos neurnios internos. Esse mtodo complicado
uma abordagem repetitiva para a resoluo de um problema de otimizao no-linear que muito
parecido em denio quele que caracteriza a regresso multilinear.
O algoritmo de aprendizado inclui os seguintes procedimentos:
1. Iniciar pesos com valores aleatrios e determinar outros parmetros.
2. Ler o vetor de entrada e a sada desejada.
3. Estimar a sada real por meio de clculos, trabalhando progressivamente atravs das
camadas.
4. Calcular o erro.
5. Alterar os pesos atravs do trabalho progressivo, da camada de sada passando pelas camadas
escondidas.
Esse procedimento repetido para todo o conjunto de vetores de entrada at que as sadas de-
sejada e real harmonizem com qualquer tolerncia predeterminada. Dado os requisitos de clculo
para uma repetio, uma rede grande pode levar muito tempo para ser treinada; por isso, em uma
variao, um conjunto de casos executado progressivamente e um erro agregado inserido retro-
ativamente para acelerar o aprendizado. Algumas vezes, dependendo dos pesos aleatrios iniciais
e dos parmetros de rede, a rede converge a um nvel de desempenho satisfatrio. Quando esse o
caso, novos pesos aleatrios devem ser criados, e os parmetros de rede, ou mesmo sua estrutura,
devem ser modicados antes que outra tentativa seja feita. Pesquisas atuais buscam desenvolver
algoritmos e usar computadores em paralelo para melhorar esse processo. Por exemplo, algorit-
mos genticos podem ser usados para orientar a escolha da estrutura de rede, como mencionado
na vinheta de abertura.
Questes de reviso da Seo 6.3
1. Faa uma breve descrio da retropropagao.
2. Qual a nalidade de um valor limite em um algoritmo de aprendizado?
3. Qual a nalidade de uma taxa de aprendizado?
4. Como o erro entre os resultados real e previsto afeta o valor dos pesos nas redes neurais?
Neurnio j
w
ij
x
i
w
ij
w
2j
w
1j
x
1
x
2
x
i
Erro
Funo de transferncia
Erro Z
j
Y
j
Y
i
g(h
j
)

Figura 6.10 Retropropagao de erros para um nico neurnio.
W6-20 Business Intelligence
6.4

DESENVOLVENDO SISTEMAS BASEADOS EM REDES NEURAIS
Embora o processo de desenvolvimento da RNA seja semelhante s metodologias estruturadas
de projeto dos tradicionais sistemas de informao baseados em computador, algumas fases tm
alguns aspectos singulares. No processo aqui descrito, supomos que as etapas preliminares para
o desenvolvimento de sistemas, como determinao de requisitos de informao, realizao de
uma anlise de viabilidade e obteno de um lder para o projeto na alta gerncia, foram com-
pletadas com sucesso. Essas etapas so gerais para qualquer sistema de informao.
Como mostrado na Figura 6.11, o processo de desenvolvimento para uma aplicao de
RNA inclui nove etapas. Na etapa 1, os dados a serem usados para treinamento e teste da rede
so coletados. Duas consideraes importantes: o problema especco deve ser acessvel
soluo de rede neural; e, dados adequados existem e podem ser obtidos. Na etapa 2, os dados
de treinamento devem ser identicados, e um plano deve ser feito para testar o desempenho
da rede.
Nas etapas 3 e 4, uma arquitetura de rede e um mtodo de aprendizagem so selecionados. A
disponibilidade de uma determinada ferramenta de desenvolvimento ou a habilidade do pessoal
do desenvolvimento deve determinar o tipo de rede neural a ser criada. Alm disso, certos tipos
de problema demonstraram altos ndices de sucesso com determinadas conguraes (p.ex., redes
neurais progressivas com multicamadas para predio de falncia, conforme descrito na prxima
seo). Aqui, as consideraes importantes so o nmero exato de neurnios e camadas. Alguns
pacotes usam algoritmos genticos para selecionar o desenho da rede.
Existem parmetros para ajustar a rede de acordo com o nvel desejado de desempenho do
aprendizado. Parte do processo na etapa 5 a inicializao dos pesos e parmetros de rede, segui-
dos pela modicao dos parmetros medida que o feedback sobre desempenho do aprendizado
recebido. Muitas vezes, os valores iniciais so importantes na determinao da ecincia e dura-
o do treinamento. Alguns mtodos alteram os parmetros durante o treinamento para aprimorar
o desempenho.
A etapa 6 transforma os dados de aplicao no tipo e no formato exigidos pela rede neural.
Isso pode exigir a gravao de um software para pr-processar os dados ou realizar essas opera-
es diretamente em um pacote de RNA. Tcnicas e processos de armazenamento e manipulao
de dados devem ser projetados para retreinamento prtico e eciente da rede neural, quando ne-
cessrio. No raro, a apresentao e disposio dos dados de aplicao inuenciam a ecincia e,
possivelmente, a preciso dos resultados.
Nas etapas 7 e 8, treinamento e teste so conduzidos repetidamente por meio da expo-
sio rede dos dados de entrada e dados de sada desejados ou conhecidos. A rede calcula
as sadas e ajusta os pesos at que as sadas calculadas estejam dentro de uma tolerncia
aceitvel das sadas conhecidas para os casos de entrada. As sadas desejadas e suas relaes
com os dados de entrada so obtidas de dados histricos (ou seja, uma parcela dos dados
coletados na etapa 1).
Na etapa 9, um conjunto estvel de pesos obtido. Agora, a rede pode reproduzir as sadas
desejadas, dado as entradas como aquelas do conjunto de treinamento. A rede est pronta para ser
usada como um sistema independente ou como parte de outro sistema de software no qual novos
dados de entrada lhe sero apresentados e suas sadas sero uma deciso recomendada.
Nas prximas sees, examinaremos essas etapas mais detalhadamente.
Coleta e preparao dos dados
As primeiras duas etapas no processo de desenvolvimento da RNA envolvem coletar os dados,
separ-los em um conjunto de treinamento e um de teste. Os casos de treinamento so usados para
Captulo 6 Redes Neurais para Data Mining W6-21
ajustar os pesos, e os casos de teste so usados para validao da rede. Os dados usados para trei-
namento e teste devem incluir todos os atributos teis para resoluo do problema. O sistema pode
aprender apenas tanto quanto os dados podem dizer. Portanto, a coleta e preparao dos dados so
a etapa mais importante na criao de um sistema eciente.
Pegar um nmero maior
de dados melhores
Coletar dados
1
Etapas
Separar novamente Separar em conjuntos
de treinamento e teste
2
Redefinir a estrutura Definir uma
estrutura de rede
3
Selecionar outro
algoritmo
Selecionar um
algoritmo de aprendizado
4
Reiniciar Determinar parmetros
e valores, zerar os pesos
5
Transformar dados
em entradas de rede
6
Reiniciar Comear o
treinamento e determinar
e revisar os pesos
7
Parar e testar
8
Implementao:
usar a rede com
novos casos
9
Figura 6.11 Fluxograma do processo de desenvolvimento de uma RNA.
W6-22 Business Intelligence
Em geral, quanto mais dados forem usados melhor. Enormes conjuntos de dados aumentam
o tempo de processamento durante o treinamento, mas melhoram a preciso do treinamento e
muitas vezes levam a uma convergncia mais rpida em um conjunto satisfatrio de pesos. Para
um conjunto de dados mdio, 80% dos dados so selecionados aleatoriamente para treinamento
e 20% so usados para teste; para conjuntos pequenos de dados, todos os dados so usados para
treinamento e teste; e para conjuntos grandes de dados, uma amostra sucientemente ampla
extrada e tratada como um conjunto de dados mdio.
Por exemplo, digamos que um banco quer criar um sistema baseado em rede neural a m de
usar os dados nanceiros dos clientes para determinar se eles podem falir. Os bancos precisam,
primeiro, identicar quais dados nanceiros devem ser usados como entradas e de que forma
obt-los. Cinco atributos podem ser entradas teis: (1) capital de giro/total de ativos, (2) lucros
acumulados/total de ativos, (3) lucro antes de juros e imposto de renda/total de ativos, (4) valor de
mercado do patrimnio/dvida total, e (5) vendas/total de vendas. A sada uma varivel binria:
falncia ou no.
Escolha da estrutura de rede
Aps os conjuntos de dados de treinamento e teste serem identicados, a prxima etapa projetar
a estrutura das redes neurais. Isso inclui a escolha de uma topologia e a determinao de (1) ns
de entrada, (2) ns de sada, (3) nmero de camadas escondidas e (4) nmero de ns escondidos.
A topologia progressiva com multicamadas freqentemente usada em aplicaes comerciais,
embora outros modelos tambm estejam comeando a descobrir algum uso comercial.
O esquema dos ns de entrada deve ser baseado nos atributos do conjunto de dados. No
exemplo da predio de falncia, o banco deveria escolher uma estrutura de trs camadas que
inclusse uma camada de entrada, uma camada de sada e uma camada escondida, por exemplo.
A camada de entrada contm cinco ns, sendo cada um deles uma varivel, e a camada de sada
contm um n com 0 para falncia e 1 para seguro. Determinar o nmero de ns escondidos
delicado. Algumas heursticas foram propostas, mas nenhuma delas indiscutivelmente a melhor.
Uma abordagem tpica escolher o nmero mdio de ns de entrada e sada. No caso anterior, o
n escondido poderia ser denido para (5 + 1)/2 = 3. A Figura 6.12 mostra uma possvel estrutura
para o problema de predio de falncia.
X1
X2
X3
X4
X5
Passvel de falncia 0
Sem possibilidade de falncia 1
Figura 6.12 Arquitetura da rede neural para predio de falncia.
Captulo 6 Redes Neurais para Data Mining W6-23
Escolha do algoritmo de aprendizado
Depois que a estrutura da rede escolhida, precisamos encontrar um algoritmo de aprendizado
para identicar um conjunto de pesos de conexo que melhor abranja os dados de treinamento e
tenha a melhor preciso preditiva. Para a topologia progressiva escolhida para o problema de pre-
dio de falncia, um mtodo tpico usar o algoritmo de retropropagao. Como muitos pacotes
comerciais esto disponveis no mercado, no h necessidade de implementarmos o algoritmo de
aprendizado. Pelo contrrio, podemos escolher um pacote comercial apropriado para analisar os
dados. O quadro Insights de tecnologia 6.4 resume informaes sobre diferentes tipos de pacotes
de software de rede neural disponveis.
Existem muitas ferramentas para o desenvolvimen-
to de redes neurais (consulte o website deste livro e
as listas peridicas de fontes na PC AI, pcai.com).
Algumas dessas ferramentas funcionam como am-
bientes de sistema especialista. Elas fornecem um
conjunto de arquiteturas, algoritmos de aprendiza-
do e parmetros padro, junto com a capacidade de
manipular dados. Algumas ferramentas de desenvol-
vimento podem dar suporte a muitos paradigmas de
rede e algoritmos de aprendizado.
Implementaes de redes neurais tambm esto
disponveis na maioria das ferramentas abrangentes de
data mining, como SAS Enterprise Miner, Clementi-
ne e STATISTICA Data Miner. O WEKA um acervo
de algoritmos de aprendizado de mquina com cdigo
aberto para tarefas de data mining, e inclui recursos de
rede neural. possvel fazer o download do WEKA em
cs.waikato.ac.nz/~ml/weka. O STATISTICA est dis-
ponvel em verso de teste para os usurios deste livro.
Muitas ferramentas especializadas de rede neu-
ral permitem a criao e implantao de um modelo
de rede neural na prtica. Qualquer lista com essas
ferramentas estaria incompleta. Fontes on-line como
a Wikipedia (en.wikipedia.org/wiki/Articial_neu-
ral_network), o diretrio de software do Google ou
do Yahoo, e as listas de fornecedores em pcai.com
so bons lugares para localizar informaes recentes
sobre fornecedores de software de rede neural. Al-
guns dos fornecedores que estavam disponveis por
um tempo ou que comunicaram aplicaes industriais
dos seus softwares de rede neural incluem California
Scientic (BrainMaker), NeuralWare, NeuroDimen-
sion Inc.,Ward Systems Group (Neuroshell) e Mega-
puter. Novamente, a lista nunca estar completa.
Algumas ferramentas de desenvolvimento de
RNA so suplementos de planilha. A maioria conse-
gue ler planilhas, banco de dados e arquivos de texto.
Algumas so freeware ou shareware. Alguns sistemas
de RNA foram desenvolvidos em Java para serem exe-
cutados diretamente na Web e esto acessveis atravs
da interface do navegador da Web. Outros produtos de
RNA so projetados para interface com sistemas espe-
cialistas como produtos hbridos de desenvolvimento.
Em vez disso, os desenvolvedores podem pre-
ferir usar linguagens de programao mais comuns,
como C++, ou uma planilha para programar o mode-
lo e fazer os clculos. Uma variao disso seria o uso
de uma biblioteca com rotinas de RNA. Por exemplo,
a hav.Software (hav.com) oferece uma biblioteca de
classes C++ para implementao de redes neurais
progressivas independentes ou integradas, recorren-
tes simples e recorrentes de ordem aleatria. Um
software computacional como o MATLAB tambm
inclui bibliotecas especcas para redes neurais.
Na prtica, como as redes neurais so implemen-
tadas? Aps um analista/desenvolvedor ter conduzido
testes sucientes para certicar que uma rede neural
pode fazer um bom trabalho para a aplicao, a rede
precisa ser implementada nos sistemas existentes. Uma
srie de ambientes de rede neural pode produzir c-
digos, em C++, Java ou Visual Basic, que podem ser
integrados a outro sistema que consegue acessar dados-
fonte ou chamado diretamente por uma interface gr-
ca de usurio para implantao, independentemente
do sistema de desenvolvimento. Ou, aps treinar uma
RNA em uma ferramenta de desenvolvimento, com os
pesos, a estrutura de rede e funo de transferncia,
pode-se facilmente desenvolver sua prpria implemen-
tao em uma linguagem de programao da terceira
gerao, como a C++. Grande parte dos pacotes de de-
senvolvimento de RNA, assim como as ferramentas de
data mining, consegue gerar esses cdigos. Ento, o
cdigo pode ser integrado a uma aplicao autnoma
ou em uma aplicao de servidor Web.
INSIGHTS DE TECNOLOGIA 6.4
Software de RNA
W6-24 Business Intelligence
Treinamento da rede
O treinamento da RNA um processo repetitivo que comea a partir de um conjunto aleatrio
de pesos e gradualmente aprimora a aptido do modelo da rede e o conjunto de dados conhecido.
A iterao continua at o total de erros ser convergido abaixo de um nvel aceitvel predenido.
No algoritmo de retropropagao, dois parmetros, taxa de aprendizado e momentum, podem ser
ajustados para controlar a velocidade de obteno de uma soluo. Eles determinam a proporo
da diferena entre o valor calculado e o valor real dos casos de treinamento. Alguns pacotes de
software podem ter seus prprios parmetros nas suas heursticas de aprendizado a m de acelerar
o processo de aprendizagem. importante ler atentamente antes de usar esse tipo de software.
No processo de treinamento, talvez seja necessrio fazer alguma converso de dados. Isso in-
clui (1) alterar o formato dos dados para cumprir as exigncias do software, (2) padronizar a escala
de dados para tornar os dados mais semelhantes e (3) remover dados problemticos. Quando o
conjunto de dados de treinamento est pronto, ele carregado em um pacote e o procedimento de
aprendizagem executado. Dependendo do nmero de ns e do tamanho do conjunto de dados de
treinamento, pode levar de algumas mil at milhes de iteraes para obter uma soluo.
Teste
Na etapa 2 do processo de desenvolvimento mostrada na Figura 6.11, os dados disponveis so
divididos em conjuntos de dados de treinamento e de teste. Quando o treinamento for completado,
ser necessrio testar a rede. O teste (etapa 8) verica o desempenho do modelo de rede obtido por
meio da avaliao da capacidade de classicar corretamente os dados de teste. O teste de caixa
preta (ou seja, comparar os resultados do teste com os resultados histricos) o principal mtodo
para vericar que as entradas geram as sadas adequadas. Termos de erro podem ser usados para
comparar os resultados em relao aos mtodos referenciais conhecidos.
Geralmente, no se supe que a rede funcione perfeitamente ( difcil de se obter erro zero, se
no impossvel), e somente um determinado nvel de preciso exigido. Por exemplo, se 1 signi-
ca sem possibilidade de falncia e 0 signica passvel de falncia, ento qualquer sada entre 0,1
e 1 poderia indicar certa propenso a no falncia. A aplicao de rede neural normalmente uma
alternativa para outro mtodo que pode ser usado como referncia em relao ao qual comparar a
preciso. Por exemplo, uma tcnica estatstica como regresso mltipla ou outro mtodo quantita-
tivo pode ser conhecido por classicar as entradas corretamente 50% das vezes.
Muitas vezes, a implementao da rede neural aprimora isso. Por exemplo, Liang (1992) rela-
tou que o desempenho da RNA era superior ao desempenho de mltiplas anlises discriminantes
e induo de regras. Ainscough e Aronson (1999) investigaram a aplicao de modelos de rede
neural na predio de vendas varejistas, dado um conjunto com diversas entradas (p.ex., preo
regular, promoes variadas). Eles compararam seus resultados com aqueles de regresso mltipla
e aprimoraram o R
2
(coeciente de correlao) ajustado de 0,5 para 0,7. Se a rede neural estiver
substituindo as operaes manuais, os nveis de desempenho e a velocidade de processamento
humano podem ser o padro para decidir se a fase de teste foi bem-sucedida.
O plano de teste deve incluir casos de rotina bem como situaes potencialmente problem-
ticas. Se o teste revelar grandes desvios, o conjunto de treinamento deve ser reexaminado, e o
processo de treinamento talvez tenha de ser repetido (alguns dados ruins talvez tenham de ser
omitidos do conjunto de entrada).
Observe que podemos equiparar os resultados da rede neural exatamente com aqueles encon-
trados atravs de mtodos estatsticos. Por exemplo, em regresso linear passo-a-passo, variveis
de entrada algumas vezes so determinadas como insignicantes, mas por causa da natureza da
computao neural, uma rede neural as usa para atingir nveis maiores de preciso. Quando elas
so omitidas de um modelo de rede neural, seu desempenho normalmente afetado.
Captulo 6 Redes Neurais para Data Mining W6-25
Implementao de uma RNA
Freqentemente, a implementao de uma RNA (etapa 9) exige interfaces com outros sistemas
de informao baseados em computador e treinamento de usurio. Monitoramento e feedback
permanentes para os desenvolvedores so recomendados de modo a obter melhorias no sistema e
xito a longo prazo. Tambm importante ganhar a conana dos usurios e da gerncia no incio
da implantao para garantir que o sistema seja aceito e usado adequadamente.
Questes de reviso da Seo 6.4
1. Liste as nove etapas na conduo de um projeto de rede neural.
2. Quais so alguns dos parmetros de criao para o desenvolvimento de uma rede neural?
3. Descreva diferentes tipos de software de rede neural disponveis hoje.
4. Na prtica, como as redes neurais so implementadas quando o treinamento/teste completado?
5. Quais parmetros talvez precisem ser ajustados no processo de treinamento da rede neural?
6.5

UM EXEMPLO DE PROJETO DE REDE NEURAL
A seguir, descreveremos uma aplicao tpica de redes neurais a m de prever falncia de em-
presas usando os mesmos dados e um esquema experimental semelhante ao usado por Wilson e
Sharda (1994). Para ns comparativos, o desempenho das redes neurais ser contrastado com o
da regresso logstica.
O estudo de Altman (1968) tem sido usado como o padro de comparao para muitos es-
tudos de classicao de falncia que usam anlise discriminante e regresso logstica; estudos
de acompanhamento tm identicado outros atributos para melhorar o desempenho da predio.
Usamos os mesmos ndices nanceiros do estudo de Altman, percebendo que entradas mais so-
sticadas para o modelo de rede neural devem apenas aprimorar seu desempenho. Os ndices so
os seguintes:
X
1
: capital de giro/total de ativos
X
2
: lucros acumulados/total de ativos
X
3
: lucros antes de juros e impostos/total de ativos
X
4
: valor de mercado do patrimnio/dvida total
X
5
: vendas/total de vendas
A etapa 1 consiste na coleta de dados relevantes. A amostra de empresas para cada um desses
ndices foi obtida do Moodys Industrial Manuals. O manual constitui-se de empresas que ou estavam
em funcionamento ou faliram entre 1975 e 1982. A amostra tem um total de 129 empresas, 65 delas
faliram durante o perodo e 64 empresas no falidas coincidiram em setor e ano. Os dados usados
para as empresas falidas so das ltimas demonstraes nanceiras publicadas antes das empresas
declararem falncia. Portanto, a predio de falncia ser feita com cerca de 1 ano de antecedncia.
A etapa 2 exige que separemos o conjunto de dados em um conjunto de treinamento e um
conjunto de teste. Como a determinao da diviso pode afetar descobertas experimentais, um
procedimento de reamostragem pode ser usado para criar muitos pares diferentes de conjuntos de
treinamento e teste, o que tambm garante que no h sobreposio na composio dos conjuntos
equilibrados de treinamento e teste. Por exemplo, um conjunto de treinamento com 20 padres
pode ser criado aleatoriamente designando 20 registros do conjunto coletado. Um conjunto com
outros 20 padres/registros pode ser criado como um conjunto de teste.
Alm disso, os resultados desse (e de qualquer outro) estudo poderiam ser afetados pela
proporo de empresas falidas em relao s no falidas tanto no conjunto de treinamento como
no conjunto de teste; isto , o grupo de todas as empresas contm uma determinada proporo de
empresas prestes a falir. Esse ndice de base pode inuenciar no desempenho de uma tcnica de
W6-26 Business Intelligence
predio de duas maneiras. Primeiro, uma tcnica pode no funcionar bem quando as empresas
de interesse (ou seja, aquelas que esto falidas) constituem uma porcentagem muito pequena da
populao (ou seja, baixo ndice de base). Isso seria devido a uma incapacidade da tcnica de
identicar os itens necessrios para classicao. Segundo, existem diferenas nos ndices de base
entre amostras de treinamento e de teste. Se um modelo de classicao for criado usando uma
amostra de treinamento com um determinado ndice de base, o modelo ainda funcionar quando
o ndice de base na populao de teste for diferente? Essa questo importante por mais um mo-
tivo: se um modelo de classicao baseado em um determinado ndice de base funcionar sobre
outras propores, talvez seja possvel criar um modelo usando uma proporo maior de casos de
interesse do que realmente acontece na populao.
Para estudar os efeitos dessa proporo no desempenho preditivo das duas tcnicas, criamos
trs propores (ou ndices de base) para a composio do conjunto de teste enquanto conservamos
a composio do conjunto de treinamento xada em um ndice de base de 50/50. O primeiro nvel
de fator (ou ndice de base) pode ser uma proporo de 50/50 de falncia para casos de no falncia,
o segundo nvel poderia ser uma proporo de 80/20 (80% de no falncia, 20% de falncia) e o ter-
ceiro nvel poderia ser uma proporo aproximada de 90/10. No sabemos realmente a proporo
real de empresas que vo falncia, os casos de 80/20 e 90/10 devem estar perto.
Dentro de cada uma das trs diferentes composies do conjunto de teste, 20 diferentes pares
do conjunto de teste/treinamento poderiam ser gerados atravs da reamostragem de Monte Carlo
a partir das 129 empresas originais. Portanto, um total de 60 pares distintos do conjunto de dados
de treinamento e teste foram gerados a partir dos dados originais. Em cada caso, os pares dos
conjuntos de treinamento e de teste continham empresas exclusivas (ou seja, no foi permitida
sobreposio). Essa restrio fornece um teste mais seguro do desempenho de uma tcnica. Re-
sumindo, redes neurais e modelos de regresso logstica so desenvolvidos usando conjuntos de
treinamento com propores iguais de empresas a m de determinar a funo de classicao,
mas so avaliadas com conjuntos de teste que contm ndices de base de 50/50, 80/20 e 90/10. (O
conjunto de dados usado aqui est disponvel no site do livro.)
As etapas 3 a 6 referem-se preparao para um experimento de rede neural. Podemos usar
qualquer pacote de software de rede neural que implemente o algoritmo de aprendizado de re-
tropropagao anteriormente mencionado, de modo a conceber e testar modelos de rede neural
treinados. Teramos de decidir sobre o tamanho da rede neural, incluindo o nmero de camadas
escondidas e de neurnios na camada escondida. Por exemplo, uma estrutura possvel de ser usada
aqui : 5 neurnios de entrada (1 para cada ndice nanceiro), 10 neurnios escondidos e 2 neur-
nios de sada (1 indicando uma empresa falida e outro, uma no falida). (A Figura 6.13 ilustra essa
congurao de rede.) Os valores da sada neural variam entre 0 e 1. O n de sada BR indica uma
empresa a ser classicada como propensa a ir falncia, e o n NBR, no propensa.
Um usurio de uma rede neural tem duas decises difceis para tomar no processo de treina-
mento (etapa 6): em que ponto a rede neural aprendeu adequadamente as relaes, e qual o limite
de erro quanto determinao de classicaes corretas do conjunto de teste? Essas questes so
enfrentadas com o uso de tolerncias de treinamento e de teste que determinam os nveis aceit-
veis de variao para considerar as classicaes corretas.
A etapa 7 refere-se ao treinamento real da rede neural. No treinamento das redes nesse exem-
plo, um algoritmo heurstico de retropropagao foi usado para garantir a convergncia (ou seja,
todas as empresas no conjunto de treinamento classicadas corretamente). O conjunto de treina-
mento foi repetidamente apresentado ao software de rede neural at que o software tivesse apren-
dido competentemente a relao entre os atributos dos casos e se a empresa estava em perigo. Em
seguida, para avaliar com preciso a eccia da predio da rede, a amostra de teste (ou seja, con-
junto de teste) apresentada rede, e o nmero de classicaes corretas registrado (etapa 8).
Na determinao de classicaes corretas, um limite de teste de 0,49 foi usado. Dessa ma-
neira, o n de sada com um valor superior a 0,5 foi usado para avaliar se a rede forneceu uma
Captulo 6 Redes Neurais para Data Mining W6-27
classicao correta. Casos nos quais ambos os neurnios de sada forneceram nveis de sada ou
menores do que 0,5 ou maiores do que 0,5 foram considerados classicaes errneas.
Para comparar o desempenho da rede neural em oposio ao uso de tcnicas estatsticas cls-
sicas, um mtodo de regresso logstica foi implementado pelo SYSTAT, um pacote de software
estatstico. A Tabela 6.2 representa a porcentagem mdia de classicaes corretas fornecidas pelas
duas diferentes tcnicas quando avaliadas pelas 20 amostras de teste para cada um dos trs diferen-
tes ndices de base do conjunto de teste. Quando os conjuntos de teste continham um nmero igual
dos dois casos, as redes neurais classicaram corretamente 97,5% dos casos de teste, enquanto que
a regresso logstica esteve correta 93,25% das vezes. De maneira semelhante, quando os conjuntos
de teste tinham 20.070 empresas falidas, as redes neurais classicaram com um ndice de 95,6% de
acerto, enquanto que a regresso logstica classicou corretamente com um ndice de 92,2%.
Um teste no-paramtrico, o teste de Wilcoxon para observaes correlacionadas, foi reali-
zado para avaliar se as porcentagens de classicao correta para as duas tcnicas eram signicati-
vamente diferentes. Aquelas ocorrncias nas quais diferenas estatisticamente signicativas foram
encontradas so indicadas pelas notas de rodap na Tabela 6.2. Em geral, as redes neurais tiveram
um desempenho signicativamente melhor do que a regresso logstica.
A Tabela 6.2 tambm ilustra as porcentagens corretas de predies de empresas falidas e no
falidas. Na predio dos casos de falncia, as redes neurais zeram predies signicativamente
BR =1 NBR = 1
X X X X X
1 2 4 3 5
Figura 6.13 Um modelo de rede neural tpico para predio de falncia.
W6-28 Business Intelligence
melhores do que a regresso logstica para conjuntos de teste de proporo igual, na mesma
porcentagem quando o ndice era 80/20, e um pouco pior (embora no signicativamente) para
conjuntos de teste de 90/10. As redes neurais nitidamente superaram em desempenho o modelo
de regresso logstica quanto predio de empresas no passveis de falncia.
Uma srie de estudos no passado recente investigou o desempenho de redes neurais na predi-
o de fracasso empresarial. Esses estudos compararam o desempenho da rede neural ao desempe-
nho das tcnicas estatsticas tradicionais, como anlise discriminante e regresso logstica. Alm
disso, alguns estudos compararam redes neurais a outras tcnicas de inteligncia articial, como
mtodos de aprendizado indutivo (p.ex., ID3). O objetivo desta seo ilustrar como um projeto
de rede neural pode ser concludo, no necessariamente argumentar que as redes neurais saem-se
melhor nesse domnio de problema.
Questes de reviso da Seo 6.5
1. Quais parmetros podem ser usados para prever a falncia de uma empresa?
2. Como os dados foram divididos entre conjuntos de treinamento e de teste para esse expe-
rimento?
3. Explique o que signica reamostragem neste contexto. Como a reamostragem foi usada para
esse problema?
4. Quais foram os parmetros de rede para esse experimento de rede neural?
5. Como uma sada foi convertida para signicar falncia ou no falncia?
6. Como o modelo de rede neural se compara a um modelo de regresso logstica nesse ex-
perimento?
6.6

OUTROS PARADIGMAS DAS REDES NEURAIS
As redes neurais baseadas em MLP descritas at aqui neste captulo so apenas um tipo especco
de redes neurais. Literalmente centenas de redes neurais diferentes foram propostas. Muitas so
variantes do modelo MLP j visto; elas diferem-se apenas nas suas implementaes de represen-
tao de entrada, processo de aprendizagem, processamento de sada e assim por diante. Mas
existem muitos tipos de redes neurais diferentes do modelo MLP. Alguns deles sero apresentados
ainda neste captulo. Outros incluem redes com funo de base radial, redes neurais probabilsti-
cas, redes neurais de regresso generalizada e mquinas de vetores de suporte. Diversos recursos
Tabela 6.2 Comparao de desempenho entre redes neurais e regresso logstica
Propores de teste
50/50 80/20 90/10
Critrios RN RL RN RL RN RL
Porcentagem total de classicao
correta
97,5
a
93,25 95,6
a
92,2 95,68
b
90,23
ndice de xito na classicao de
empresas passveis de falncia
97,0
a
91,90 92,0 92,0 92,5 95,0 (p =
0,282)
ndice de xito na classicao de
empresas sem possibilidade de
falncia
98,0
a
95,5 96,5
a
92,25 96,0
b
89,75
a
p < 0,01.
b
p < 0,05.
Captulo 6 Redes Neurais para Data Mining W6-29
on-line descrevem detalhes dos tipos de redes neurais. Uma boa fonte apresentada no Captulo
4 o e-book da StatSoft (statsoft.com/textbook/stathome.html). A prxima subseo introduz
algumas das variedades clssicas de redes neurais.
Redes de Hopeld
Um modelo de rede neural interessante a rede de Hopeld (Hopeld, 1982). John Hopeld mos-
trou em uma srie de artigos nos anos 1980 como redes altamente interconectadas ou neurnios
no-lineares podem ser extremamente ecazes na computao. Essas redes forneciam uma rpida
soluo calculada para problemas declarados em termos de condies ideais desejadas, muitas
vezes sujeitas a restries.
Uma rede de Hopeld comum uma nica grande camada de neurnios com total interconec-
tividade isto , cada neurnio est conectado a um neurnio sim e outro no. Alm disso, a sada
de cada neurnio pode depender dos seus valores anteriores. Um uso da rede de Hopeld tem sido
na resoluo de problemas de otimizao limitada, como o clssico problema do caixeiro viajante
(TSP). Nesse tipo de aplicao, cada neurnio representa a convenincia de uma cidade n a ser
visitada na posio m de um roteiro do TSP. Os pesos de interconexo esto especicados, repre-
sentando as limitaes da soluo vivel para o TSP (p.ex., forar uma cidade a aparecer em um
roteiro somente uma vez). Uma funo de energia est especicada, a qual representa o objetivo
do processo de soluo do modelo (p.ex., minimizar a distncia total no roteiro do TSP) e usada
na determinao de quando parar a evoluo da rede neural em um estado nal. A rede comea
com valores aleatrios de neurnio e, usando os pesos de interconexo denidos, os valores de
neurnio so atualizados ao longo do tempo. Gradualmente, os valores de neurnio estabilizam-
se, evoluindo para um estado nal (conforme orientado pela funo geral de energia) que repre-
senta uma soluo para o problema. Nesse ponto de evoluo da rede, o valor de neurnio (n, m)
representa se a cidade n deveria ser na localizao m do roteiro do TSP. Enquanto Hopeld e Tank
(1985) e outros alegavam grande xito na resoluo do TSP, pesquisas adicionais mostraram que
essas armaes eram um tanto precipitadas. Todavia, essa abordagem nova para um problema
clssico tem potencial para os problemas de otimizao, especialmente quando a tecnologia pos-
sibilita tirar vantagem do paralelismo inerente das redes neurais.
As redes de Hopeld so diferentes das redes progressivas porque os neurnios esto al-
tamente interconectados, os pesos entre os neurnios tendem a ser xos, e no h treinamento
propriamente dito. A complexidade e o desao de usar uma rede de Hopeld para problemas de
otimizao esto na especicao correta dos pesos de interconexo e na identicao da funo
geral de energia apropriada para orientar o processo de evoluo da rede.
Redes auto-organizveis
Tambm conhecida como rede auto-organizvel, a rede de Kohonen outro modelo de rede neu-
ral. Essas redes aprendem de maneira no supervisionada. A base biolgica desses modelos a
hiptese de que alguma organizao acontece no crebro humano quando um estmulo externo
fornecido. O algoritmo de Kohonen forma mapas de caractersticas, onde regies de neurnios
so construdas. Essas regies so organizadas de tal maneira que neurnios topologicamente
prximos so sensveis s entradas semelhantes dentro do modelo. Mapas auto-organizveis, ou
mapas de caractersticas auto-organizveis, s vezes podem ser usados para desenvolver alguma
compreenso inicial dentro dos dados. Por exemplo, mapas auto-organizveis poderiam aprender
a identicar grupos de dados de modo que um analista pudesse criar modelos mais sosticados
para cada subgrupo/grupo. Em casos nos quais o analista no tem uma boa idia do nmero de
classes ou sada ou classe de sada real para qualquer padro dado, os mapas auto-organizveis
podem funcionar.
W6-30 Business Intelligence
Questes de reviso da Seo 6.6
1. Liste alguns dos diferentes tipos de redes neurais.
2. Qual uma diferena importante entre uma rede MLP e uma rede de Kohonen?
3. Qual o outro nome para a rede de Kohonen?
4. Faa uma breve descrio da rede de Hopeld.
6.7

APLICAES DE RNA
A RNA tem sido aplicada em muitos campos. Um levantamento das suas aplicaes em -
nanas pode ser encontrado em Fadlalla e Lin (2001). Foram feitos diversos testes de redes
neurais em mercados nanceiros. Collard (1990) armou que seu modelo de rede neural para
treinamento com mercadorias teria resultado em lucros signicativos sobre outras estratgias
de negociao. Kamijo e Tanigawa (1990) usaram uma rede neural para fazer um grco com
os dados da Bolsa de Valores de Tquio. Eles descobriram que os resultados do modelo supe-
rariam uma estratgia de comprar e manter. Por ltimo, foi desenvolvido um modelo neural
para predio de mudana da porcentagem no S&P 500 com cinco dias de antecedncia, usan-
do uma variedade de indicadores econmicos (Fishman et al.,1991). Os autores armam que
o modelo tem fornecido predies mais precisas do que alegaram especialistas na rea usando
os mesmos indicadores.
Redes neurais tm sido treinadas com xito para determinar se solicitaes de emprstimo
devem ser aprovadas (Gallant,1988). Tambm tem sido mostrado que as redes neurais podem
prever a solvncia de candidatos a nanciamento da casa prpria melhor do que os agentes hipo-
tecrios (Collins et al., 1988). Prever a classicao das obrigaes ao portador e tentar prever sua
rentabilidade outra rea onde as redes neurais tm sido aplicadas com xito (consulte Dutta e
Shakhar, 1988; e Surkan e Singleton, 1990). As redes neurais superaram em desempenho a anlise
de regresso e outras ferramentas de modelagem matemtica na predio da classicao e ren-
tabilidade das obrigaes. A principal concluso obtida foi que as redes neurais forneceram uma
estrutura mais geral para vincular a informao nanceira de uma empresa com a classicao da
obrigao correspondente.
Preveno contra fraude outra rea de aplicao da rede neural nos negcios. O Chase
Manhattan Bank usou de maneira bem-sucedida redes neurais para lidar com fraudes de carto
de crdito (Rochester, 1990), com os modelos de rede neural superando tradicionais abordagens
de regresso. Alm disso, as redes neurais tm sido usadas na validao de assinaturas em bancos
(consulte Francett, 1989; e Mighell, 1989). Essas redes identicaram falsicaes signicativa-
mente melhor do que qualquer perito humano.
Outra rea importante de aplicao estatstica das redes neurais na previso de sries tempo-
rais. Diversos estudos tentaram usar redes neurais para predio de sries temporais. Exemplos in-
cluem Fozzard et al. (1989), Tang et al. (1991) e Hill et al. (1994). A concluso geral que as redes
neurais parecem funcionar, pelo menos, to bem quanto a tcnica de previso de Box-Jenkins.
Como as redes neurais tm sido um assunto de estudo profundo desde o nal dos anos 80,
muitas aplicaes e tambm experimentos com aplicaes foram desenvolvidos. Pode-se fazer
pesquisas simples na Internet para encontrar exemplos recentes em acrscimo queles lista-
dos neste captulo. Outros relatrios recentes incluem rastreamento ativo de invaso (consulte
Thaler, 2002), ltragem de contedo da Web (Lee et al., 2002), predio da taxa de cmbio
(Davis et al., 2001), e alocao de leitos em hospital (Walczak et al., 2002). Aplicaes mais
novas esto surgindo nas reas da medicina e sade. Veja o Caso de Aplicao 6.5 para obter
um exemplo.
Em geral, as RNAs so adequadas para problemas cujas entradas so tanto categricas quanto
numricas, e onde as relaes entre entradas e sadas no so lineares ou os dados de entrada no
Captulo 6 Redes Neurais para Data Mining W6-31
esto regularmente distribudos. Nesses casos, mtodos estatsticos clssicos podem no ser su-
cientemente conveis. Como a RNA no faz quaisquer suposies sobre a distribuio de dados,
sua capacidade menos afetada do que nos mtodos estatsticos tradicionais quando os dados no
esto adequadamente distribudos. Por ltimo, existem casos nos quais as redes neurais simples-
mente oferecem mais uma maneira de criar um modelo preditivo para a situao em questo. Dada
a facilidade de experimentao usando as ferramentas de software disponveis, til investigar a
capacidade das redes neurais em qualquer situao de modelagem de dados.
Questes de reviso da Seo 6.7
1. Liste algumas aplicaes de rede neurais em contabilidade/nanas.
2. Quais so algumas aplicaes de redes neurais em engenharia?
3. Como as redes neurais tm sido usadas na rea da sade?
4. Quais so algumas aplicaes de redes neurais em segurana da informao?
5. Faa uma pesquisa na Web para identicar aplicaes de redes neurais na segurana nacional.
A RNA demonstrou ser uma ferramenta til nas tare-
fas de classicao e de reconhecimento de padres
em vrias reas, incluindo medicina clnica. Apesar da
vasta aplicabilidade da RNA, a grande quantidade de
dados exigidos para treinamento torna o uso delas uma
tcnica de classicao inadequada quando os dados
disponveis so escassos. A espectroscopia por resso-
nncia magntica (ERM) desempenha um papel funda-
mental na investigao da bioqumica da clula e ofe-
rece um mtodo convel para deteco de mudanas
metablicas no tecido mamrio. A escassez de dados e
a complexidade de interpretao de informaes sio-
lgicas relevantes impem exigncias adicionais que
impedem a aplicabilidade da maioria das tcnicas es-
tatsticas e de aprendizado de mquina desenvolvidas.
Redes neurais articiais baseadas em conhecimento
(KBANN) ajudam a superar essas diculdades e com-
plexidades. Uma KBANN combina conhecimento de
uma rea, em forma de regras simples, com aprendi-
zado conexionista. Essa combinao treina a rede por
meio do uso de pequenos conjuntos de dados (como
caracterstico das tarefas de diagnstico mdico). A
estrutura primria baseada nas dependncias de um
conjunto de regras conhecidas da rea, e necessrio
renar essas regras atravs do treinamento.
O processo da KBANN consiste de dois algorit-
mos. Um o algoritmo Regras-para-rede, no qual a
tarefa principal o processo de traduo entre uma
base de conhecimento que contm informaes sobre
uma teoria de domnios e a estrutura inicial de uma
rede neural. Esse algoritmo mapeia a estrutura de uma
teoria dos domnios aproximadamente correta, com
todas as regras e suas dependncias, dentro de uma
rede neural. Ento, a rede denida treinada usando
o algoritmo de aprendizado de retropropagao.
Mecanismos de regenarao, que inibem ou esti-
mulam o crescimento de clulas normais, controlam a
diviso e reposio de clulas em tecidos normais. No
caso dos tumores, esse processo incapaz de controlar a
produo de clulas novas, e a diviso feita sem qual-
quer considerao necessidade de reposio, atrapa-
lhando a estrutura do tecido normal. Alteraes obser-
vadas nas concentraes do metablito de fosfolpide,
as quais esto associadas a diferenas na proliferao
celular em tecidos malignos, serviram como entradas
bsicas para a identicao de aspectos relevantes pre-
sentes em tecidos malignos ou cancerosos, mas no em
tecidos normais. Os nveis anormais de determinadas
caractersticas do fosfolpide so considerados indica-
dores de tumor. Eles incluem diversos parmetros, como
PDE, PME, Pi, PCr, ATP, ATP e ATP. A KBANN
produziu uma classicao precisa de tumor de 87% a
partir de um conjunto de 26, com uma mdia de erro
padro de 0,0500 e um desvio padro de 0,0179.
Fontes: M. Sordo, H. Buxton e D. Watson, A Hybrid Ap-
proach to Breast Cancer Diagnosis, em Practical Applica-
tions of Computational Intelligence Techniques, Vol. 16, em
L. Jain e P. DeWilde (eds.), Kluwer, Norwell, MA, 2001,
acl.icnet.uk/PUBLICATIONS/sordo/chapter2001.pdf
(acessado em maro de 2006).
Redes neurais para diagnstico de cncer de mama
CASO DE APLICAO 6.5
W6-32 Business Intelligence
6.8

DEMONSTRAO DE UM SOFTWARE DE REDE NEURAL
O Tutorial online T4 oferece uma demonstrao de uso do software de redes neurais. Essa seo
usada, com permisso, a partir do tutorial do software STATISTICA. Alunos e professores que
usam este livro esto aptos a receber uma licena de seis meses a m de usar o software STATIS-
TICA para concluir os exerccios dos Captulos 4 e 6. A solicitao dessa cpia do software deve
ser feita pelo instrutor por meio do preenchimento do cupom disponvel no site parceiro www.pre-
nhall.com/turban. Observe que projetos semelhantes de software tambm podem ser concludos
com o uso de ferramentas identicadas no quadro Insights de tecnologia 6.4.
Destaques do captulo
Computao neural envolve um conjunto de mtodos
que emulam a maneira como o crebro humano fun-
ciona. A unidade bsica de processamento o neu-
rnio. Mltiplos neurnios esto ligados e agrupados
dentro de camadas.
Em uma rede neural, o conhecimento est armazenado
no peso associado a cada conexo entre dois neurnios.
Retropropagao o paradigma mais popular nas apli-
caes comerciais de redes neurais. A maioria das apli-
caes comerciais controlada usando esse algoritmo.
Uma rede neural baseada em retropropagao com-
posta de uma camada de entrada, uma camada de
sada e um determinado nmero de camadas escondi-
das (geralmente uma). Os ns em uma camada esto
totalmente conectados aos ns da prxima camada. O
aprendizado feito atravs de um processo de tentati-
va e erro para ajuste dos pesos de conexo.
Cada n na camada de entrada representa um nico
atributo que pode afetar a predio.
O aprendizado da rede neural pode ocorrer de modo
supervisionado ou no supervisionado.
No modo de aprendizado supervisionado, os padres
de treinamento incluem uma resposta correta/classi-
cao/previso.
No modo de aprendizado no supervisionado, no h
respostas. Por isso, o aprendizado no supervisionado
usado para agrupamento ou anlise exploratria dos
dados.
O processo comum de aprendizagem em uma rede
neural envolve trs etapas: (1) calcular sadas tempo-
rrias com base nas entradas e nos pesos aleatrios,
(2) calcular sadas com metas desejadas e (3) ajustar
os pesos e repetir o processo.
A regra delta normalmente usada para ajustar os pe-
sos. Inclui uma taxa de aprendizado e um parmetro
de momentum.
Desenvolver sistemas baseados em rede neural exige
um processo passo a passo. O processo inclui prepa-
rao e pr-processamento dos dados, treinamento e
teste, e converso do modelo treinado em um sistema
de produo.
O software de rede neural est disponvel para possi-
bilitar uma experincia acessvel com muitos mode-
los. Mdulos de rede neural esto includos em todas
as principais ferramentas de software de data mining.
Pacotes especcos de rede neural tambm esto dis-
ponveis. Algumas ferramentas de rede neural esto
disponveis como suplementos de planilha.
Aps uma rede treinada ter sido criada, geralmente
implementada em sistemas para usurios nais por
meio de linguagens de programao, como C++, Java
e Visual Basic. A maioria das ferramentas de rede
neural consegue gerar cdigos para a rede treinada
nessas linguagens.
Fora a retropropagao, existem muitos modelos de
rede neural, incluindo funes de base radial, mqui-
nas de vetores de suporte, redes de Hopeld e mapas
auto-organizveis de Kohonen.
Aplicaes de rede neural so usadas em quase todas
as disciplinas de negcios, bem como em praticamen-
te todas as outras reas funcionais.
Aplicaes comerciais de rede neural incluem nan-
as, predio de fracasso empresarial, previso de s-
ries temporais etc.
Novas aplicaes de redes neurais esto surgindo nas
reas da sade, segurana, etc.
Termos-chave
algoritmo de aprendizado
aprendizado no supervisionado
aprendizado supervisionado
auto-organizao
axnio
camada escondida
computao neural
dendrito
elemento de processamento (PE)
Captulo 6 Redes Neurais para Data Mining W6-33
funo de soma
funo de transformao (trans-
ferncia)
funo sigmide (ativao lgica)
mapa de caractersticas auto-or-
ganizvel de Kohonen
momentum
neurnio
ncleo
perceptron
peso de conexo
processamento paralelo
reconhecimento de padro
rede neural
rede neural articial (RNA)
retropropagao
sinapse
taxa de aprendizado
teoria da ressonncia adaptativa
(ART)
teste de caixa preta
topologia
valor limite
QUESTES PARA DISCUSSO
1. Compare a rede neural biolgica com a rede neural
articial. Quais aspectos das redes biolgicas no
so imitados pelas redes articiais? Quais aspectos
so semelhantes?
2. O desempenho da RNA depende das funes de
soma e transformao. Explique os efeitos com-
binados das funes de soma e transformao e
como elas diferem da anlise de regresso estats-
tica.
3. A RNA pode ser usada para aprendizado supervi-
sionado e no supervisionado. Explique como elas
aprendem no modo supervisionado e no modo no
supervisionado.
4. Explique a diferena entre conjunto de treinamento
e conjunto de teste. O que precisamos para dife-
renci-los? O mesmo conjunto pode ser usado para
ambos os ns? Por que ou por que no?
5. Digamos que uma rede neural foi criada para prever
a capacidade nanceira dos requerentes. Existem
dois tipos de ns de sada: um para sim (1 = sim; 0
= no) e um para no (1 = no; 0 = sim). Um reque-
rente recebe uma pontuao de 0,83 para o n de
sada sim e 0,44 para o n de sada no. Discuta
o que pode ter acontecido e se o requerente um
bom risco de crdito.
6. Todos gostariam de ganhar muito dinheiro no
mercado de aes, mas somente alguns so bem-
sucedidos. Por que usar uma RNA um mtodo
promissor? O que ela consegue fazer que outras
tecnologias de suporte deciso no conseguem?
Como ela poderia falhar?
Exerccios
Exerccios da Teradata University e outros
exerccios interativos
1. Acesse o website da Teradata Student Network (em
teradatastudentnetwork.com) ou a URL forne-
cida pelo seu instrutor. Localize os seminrios na
web relacionados a data mining e redes neurais.
Veja especicamente o seminrio dado pelo Pro-
fessor Hugh Watson na conferncia SPIRIT2005 na
Universidade do Estado de Oklahoma. Em seguida,
responda as seguintes questes:
a. Que aplicao em tempo real da Continental
Airlines pode ter usado uma rede neural?
b. Quais entradas e sadas podem ser usadas na
criao de uma aplicao de rede neural?
c. Dado que as aplicaes de data mining da
Continental so em tempo real, como a em-
presa deveria implementar uma rede neural na
prtica?
d. Quais outras aplicaes de rede neural voc pro-
poria para o setor areo?
2. Acesse o website da Teradata Student Network (em
teradatastudentnetwork.com) ou a URL forneci-
da pelo seu instrutor. Localize o caso da Harrahs.
Leia-o e responda as seguintes questes:
a. Qual das aplicaes de dados da Harrahs so
mais propensas a serem implementadas usando
redes neurais?
b. Qual outra aplicao a Harrahs poderia desenvol-
ver usando os dados coletados de seus clientes?
c. Quais so alguns dos cuidados que voc deveria
ter como cliente desse cassino?
3. Esse exerccio refere-se ao projeto exemplo deste
captulo. O problema de predio de falncia pode
ser visto como um problema de classicao. O
conjunto de dados que voc usar nesse problema
inclui cinco ndices que foram calculados a partir
das demonstraes nanceiras de empresas reais.
Esses cinco ndices foram usados em estudos que
envolvem predio de falncia. A primeira amostra
inclui dados sobre empresas que faliram e empresas
que no faliram. Essa ser sua amostra de treina-
mento para a rede neural. A segunda amostra com
10 empresas tambm possui algumas empresas fa-
lidas e outras no. Seu objetivo treinar uma rede
W6-34 Business Intelligence
neural, usando os 20 primeiros dados, e ento tes-
tar o desempenho com os outros 10 dados. (Tente
analisar os novos casos voc mesmo, manualmente,
antes de executar a rede neural e ver quo bem voc
trabalha.) As tabelas a seguir mostram a amostra de
treinamento e os dados de teste que devem ser usa-
dos nesse exerccio:
Descreva os resultados da predio da rede neu-
ral, incluindo software, arquitetura e informaes
de treinamento. Envie o(s) arquivo(s) da rede
treinada para que seu instrutor possa carreg-la
e test-la.
4. Para esse exerccio, seu objetivo criar um modelo
para identicar entradas ou indicadores que diferen-
cie clientes de risco dos outros (baseado nos padres
relativos aos clientes anteriores) e, em seguida, use
essas entradas para prever os novos clientes de risco.
Amostra de treinamento
Empresa CG/TA LA/TA LAJIR/TA VMP/DT V/TV BR/NB
1 0,165 0,1192 0,2035 0,813 1,6702 1
2 0,1415 0,3868 0,0681 0,5755 1,0579 1
3 0,5804 0,3331 0,081 1,1964 1,3572 1
4 0,2304 0,296 0,1225 0,4102 3,0809 1
5 0,3684 0,3913 0,0524 0,1658 1,1533 1
6 0,1527 0,3344 0,0783 0,7736 1,5046 1
7 0,1126 0,3071 0,0839 1,3429 1,5736 1
8 0,0141 0,2366 0,0905 0,5863 1,4651 1
9 0,222 0,1797 0,1526 0,3459 1,7237 1
10 0,2776 0,2567 0,1642 0,2968 1,8904 1
11 0,2689 0,1729 0,0287 0,1224 0,9277 0
12 0,2039 -0,0476 0,1263 0,8965 1,0457 0
13 0,5056 -0,1951 0,2026 0,538 1,9514 0
14 0,1759 0,1343 0,0946 0,1955 1,9218 0
15 0,3579 0,1515 0,0812 0,1991 1,4582 0
16 0,2845 0,2038 0,0171 0,3357 1,3258 0
17 0,1209 0,2823 -0,0113 0,3157 2,3219 0
18 0,1254 0,1956 0,0079 0,2073 1,489 0
19 0,1777 0,0891 0,0695 0,1924 1,6871 0
20 0,2409 0,166 0,0746 0,2516 1,8524 0
Dados de teste
Empresa CG/TA LA/TA LAJIR/TA VMP/DT V/TV BR/NB
A 0,1759 0,1343 0,0946 0,1955 1,9218 ?
B 0,3732 0,3483 -0,0013 0,3483 1,8223 ?
C 0,1725 0,3238 0,104 0,8847 0,5576 ?
D 0,163 0,3555 0,011 0,373 2,8307 ?
E 0,1904 0,2011 0,1329 0,558 1,6623 ?
F 0,1123 0,2288 0,01 0,1884 2,7186 ?
G 0,0732 0,3526 0,0587 0,2349 1,7432 ?
H 0,2653 0,2683 0,0235 0,5118 1,835 ?
I 0,107 0,0787 0,0433 0,1083 1,2051 ?
J 0,2921 0,239 0,0673 0,3402 0,9277 ?
Captulo 6 Redes Neurais para Data Mining W6-35
Os dados amostrais a serem usados nesse exerccio
so fornecidos no site www.prenhall.com/turban,
nome do arquivo: CreditRisk.xls. O conjunto de da-
dos tem 425 casos e 15 variveis relativas aos clien-
tes antigos e atuais que, por diversos motivos, ze-
ram um emprstimo no banco. O conjunto de dados
contm vrias informaes relacionadas ao cliente,
motivo para o emprstimo, tempo de emprego, sol-
vncia e informaes demogrcas etc, e por ltimo
o resultado ou varivel dependente para solvncia,
classicando cada caso como bom ou ruim, com
base na experincia anterior da instituio.
Voc deve pegar 400 casos como casos de treina-
mento e usar os outros 25 para teste. Em seguida,
crie um modelo de rede neural para aprender as ca-
ractersticas do problema e teste o desempenho com
os outros 25 casos. Informe sobre o desempenho
de aprendizado e teste do seu modelo. Prepare um
relatrio que identique a arquitetura da rede neu-
ral, os parmetros de treinamento e o desempenho
resultante no conjunto de teste.
(Esse exerccio cortesia da StatSoft,Inc., com base
no conjunto de dados em alemo do site ftp://ftp.
ics.uci.edu/pub/machine-learning-databases/
statlog/german alterado e renomeado CreditRisk.)
5. Prever a receita de bilheteria para uma determina-
da produo cinematogrca um desao interes-
sante. Apesar da diculdade associada natureza
imprevisvel do domnio de problema, diversos
pesquisadores tentaram prever a receita total da
bilheteria aps o lanamento inicial de um lme
no cinema. Nesse problema, voc examina a pre-
viso do desempenho nanceiro de um lme na
bilheteria antes do lanamento no cinema por meio
da converso do problema de previso em um pro-
blema de classicao. Isto , ao invs de prever a
estimativa de auge das receitas de bilheteria, voc
classica um lme baseado na sua receita de bilhe-
teria em uma das nove categorias, indo de fracasso
a sucesso, levando em conta uma srie de fatores
decididos pela opinio recebida de especialista do
ramo e por estudos anteriores. A lista a seguir mos-
tra as variveis usadas:
Atributos Variao de valores Tipo
Classicao da
Associao
da indstria
cinematogrca
(MPAA)
5 categorias de
classicao possveis:
G, PG, PG-13, R, NR
Binrio
(0,1)
Competio 3 pseudo variveis:
alta, mdia, baixa
competio
Binrio
(0,1)
Valor da estrela 3 variveis do grau de
valor da estrela: A+/A
(alto), B (mdio), C
(insignicante)
Binrio
(0,1)
Categoria do
contedo
(gnero)
10 categorias: co
cientca, drama
pico histrico, drama
moderno, drama
poltico, suspense,
terror, comdia,
desenho, ao,
documentrio
Binrio
(0,1)
Efeitos tcnicos 3 variveis binrias
independentes:
avaliaes de efeito
tcnico alto, mdio,
baixo
Binrio
(0,1)
Seqncia 1 varivel para especicar
se um lme uma
seqncia
Binrio
(0,1)
Nmero de cenas Varivel contnua Nmero
inteiro
positivo
Cada varivel categrica independente (exceto a vari-
vel gnero) convertida em uma representao binria
1 de N. Por exemplo, as 5 classicaes da MPAA so
representadas como cinco variveis 0-1. No processo
de atribuio de valor, todas essas pseudo-representa-
es de uma varivel categrica recebem o valor de 0,
exceto aquela que verdadeira para o caso atual, para
a qual dado o valor de 1. Para um lme de classica-
o PG, a segunda varivel de entrada est no nvel 1,
as outras (1 e 3-5) esto no nvel 0.
Aqui, a varivel de interesse a receita bruta da bi-
lheteria. Um lme baseado na sua receita de bilhe-
teria est classicado em uma das nove categorias,
indo de fracasso a sucesso. A varivel dependente
pode ser convertida em nove classes usando os se-
guintes pontos de corte:
Nmero de classe Variao (em milhes)
1 < 1 (fracasso)
2 > 1 e < 10
3 > 10 e < 20
4 > 20 e < 40
5 > 40 e < 65
6 > 65 e < 100
7 > 100 e < 150
8 > 150 e < 200
9 > 200 (sucesso)
Faa o download dos dados do conjunto de trei-
namento em www.prenhall.com/turban, nome do
arquivo: movietrain.xls, que tem 184 registros e
W6-36 Business Intelligence
est em formato Microsoft Excel. Use a descrio
dos dados para entender o domnio e o problema
que voc est tentando resolver. Escolha cuidado-
samente suas variveis independentes; desenvolva
pelo menos trs modelos de classicao (p.ex., r-
vore de deciso, regresso logstica, redes neurais).
Compare a preciso dos resultados (usando tcni-
cas de validao cruzada de 10 nveis e de diviso
de porcentagem), use matrizes de confuso e co-
mente o resultado. Teste os modelos desenvolvidos
no conjunto de teste (acesse www.prenhall.com/
turban, nome do arquivo: movietest.xls, 29 regis-
tros) e analise os resultados com modelos diferen-
tes e apresente o melhor modelo de classicao,
respaldando-o com os seus resultados.
Tarefas em grupo e interpretao de papis
1. Considere o seguinte conjunto de dados que se re-
fere ao uso dirio de eletricidade como uma funo
de alta temperatura externa (para o dia):
Temperatura, X Quilowatts, Y
8,22 C 12.530
11,16 C 10.800
12,83 C 10.180
15,11 C 9.730
16,61 C 9.750
19 C 10.230
21,05 C 11.160
24,89 C 13.910
26,27 C 15.690
26,5 C 15.110
26,77 C 17.020
28,5 C 17.880
a. Faa um grco com os dados brutos. Que pa-
dro voc v? O que voc acha que realmente
est afetando o uso de eletricidade?
b. Resolva esse problema com a regresso linear
Y = a + bX (em uma planilha). Quo bem ela
funciona? Faa um grco com os resultados.
O que est errado? Calcule o erro da soma dos
quadrados e R
2
.
c. Resolva esse problema usando uma regresso
no-linear. Recomendamos uma funo quadr-
tica, Y = a + b
1
X + b
2
X
2
. Quo bem ela fun-
ciona? Faa um grco com os resultados. H
alguma coisa errada? Calcule o erro da soma dos
quadrados e R
2
.
d. Divida o problema em trs sees (observe o
grco) e resolva-o usando trs modelos de re-
gresso linear um para cada seo. Quo bem
ele funciona? Faa um grco com os resulta-
dos. Calcule o erro da soma dos quadrados e R
2
.
Esse mtodo de modelagem adequado? Por
que ou por que no?
e. Crie uma rede neural para resolver o problema
original. (Voc pode ter de dimensionar os valo-
res de X e Y para estarem entre 0 e 1.) Treine-a
(com todo o conjunto de dados) e resolva o pro-
blema (ou seja, faa predies para cada um dos
itens originais dos dados). Quo bem ela funcio-
na? Faa um grco com os resultados. Calcule
o erro da soma dos quadrados e R
2
.
f. Qual mtodo funcionou melhor e por qu?
2. Crie uma rede neural real. Usando o software baixa-
do da Web (p.ex., Braincel, em promland.com, ou
outro site), identique dados reais (p.ex., comece a
procurar na Web em ics.uci.edu/~ mlearn/MLRe-
pository.html ou use os dados de uma empresa com
a qual algum do seu grupo possui um contato) e
crie uma rede neural para fazer predies. Os tpi-
cos poderiam incluir previses de vendas, predio
de sucesso em um programa acadmico (p.ex., pre-
ver a mdia geral das notas de uma classicao de
ensino mdio e pontuaes do SAT; tenha cuidado
com os dados ruins, como mdia geral de 0,0),
ou preos de imveis; ou faa um levantamento na
turma para saber peso, gnero e altura a m de ten-
tar prever a altura com base nos outros dois fatores.
(Dica: use os dados do censo (EUA), no site deste
livro ou em census.gov, por estado, para identicar
uma relao entre nvel de escolaridade e renda.)
Quo boas foram as suas predies? Compare os
resultados com as predies geradas usando mto-
dos estatsticos padro (regresso). Qual o melhor
mtodo? Como seu sistema poderia ser integrado a
um DSS para tomada de deciso real?
3. Para cada uma das seguintes aplicaes, seria me-
lhor usar uma rede neural ou um sistema especia-
lista? Explique suas respostas, incluindo possveis
excees ou condies especiais.
a. Diagnstico de uma doena bem-estabelecida
porm complexa
b. Subsistema PLU (Price-lookup) para um vende-
dor de grandes volumes de mercadorias
c. Sistema de processamento de consulta automti-
ca de voz
d. Treinamento de funcionrios novos
e. Reconhecimento de caligraa
4. Considere o seguinte conjunto de dados, que inclui
trs atributos e uma classicao para decises de
admisso em um programa de MBA:
Captulo 6 Redes Neurais para Data Mining W6-37
GMAT
Mdia geral
das notas
Percentil quant.
do GMAT Deciso
650 2,75 35 NO
580 3,50 70 NO
600 3,50 75 SIM
450 2,95 80 NO
700 3,25 90 SIM
590 3,50 80 SIM
400 3,85 45 NO
640 3,50 75 SIM
540 3,00 60 ?
690 2,85 80 ?
490 4,00 65 ?
a. Usando os dados fornecidos aqui como exem-
plos, desenvolva seu prprio manual prtico de
regras para tomada de deciso.
b. Crie uma rvore de deciso usando SPRINT
(ndice Gini). Voc pode cri-la usando clculos
manuais ou uma planilha para realizar os clcu-
los bsicos.
c. Crie outra rvore de deciso, agora usando a
abordagem de entropia e ganho de informao
(ID3). Voc pode usar uma planilha como calcu-
ladora nesse exerccio.
d. Embora o conjunto de dados apresentado seja
extremamente pequeno, tente criar uma pequena
rede neural para ele.
e. Use um programa de software para rvore de de-
ciso automtica (p.ex., See5; faa o download
de uma verso de teste em rulequest.com) para
criar uma rvore para os mesmos dados.
f. Registre as predies das ltimas trs observa-
es de cada uma das cinco abordagens de clas-
sicao.
g. Comente semelhanas e diferenas das aborda-
gens. O que voc aprendeu nesse exerccio?
5. Voc trabalhou com redes neurais e outras tcnicas
de data mining. D exemplos de onde cada uma delas
foi usada. Com base no seu conhecimento, como voc
diferenciaria essas tcnicas? Suponha que daqui a al-
guns anos voc se depare com uma situao na qual
rede neural ou outras tcnicas de data mining poderia
ser usada para criar uma aplicao interessante para
sua empresa. Voc possui um trainee trabalhando
com voc para fazer o trabalho pesado. Como voc
decidiria se a aplicao apropriada para uma rede
neural ou para outro modelo de data mining? Baseado
nas suas tarefas escolares, qual orientao especca
de software voc daria ao seu trainee para que ele/ela
seja rapidamente produtivo para voc? Sua resposta
para essa questo deve mencionar o software espec-
co, descrever como empreender a denio do mo-
delo/rede neural e validar a aplicao.
Exerccios na internet
1. Investigue os websites de vrios fornecedores de
rede neural, como California Scientic Software
(calsci.com), NeuralWare (neuralware.com) e
Ward Systems Group (wardsystems.com) e analise
alguns de seus produtos. Faa o download de pelo
menos dois demos e instale, execute e compare-os.
2. Existe um bom repositrio de dados que foi usado
para testar o desempenho de redes neurais e muitos
algoritmos de aprendizado de mquina. Esse repo-
sitrio pode ser acessado em ics.uci.edu/~mlearn/
MLRepository.html. Alguns conjuntos de dados so
realmente destinados para testar os limites de algo-
ritmos atuais de aprendizado de mquina e comparar
seu desempenho em oposio a novas abordagens
de aprendizado. Entretanto, alguns conjuntos de da-
dos menores podem ser teis na explorao da fun-
cionalidade do software que voc deve baixar para
o Exerccio na internet 1 ou do software disponvel
como complemento deste livro, como o STATISTI-
CA DataMiner. Faa o download de pelo menos um
conjunto de dados do repositrio da UCI (p.ex., Ban-
cos de dados de vericao de crdito, Banco de da-
dos imobilirio). Em seguida, aplique redes neurais e
mtodos de rvore de deciso, conforme necessrio.
Prepare um relatrio com seus resultados. (Alguns
desses exerccios tambm poderiam ser feitos em
grupo ou at mesmo serem propostos como projetos
semestrais para um trabalho nal etc.)
3. Acesse calsci.com e leia sobre diversas aplicaes
comerciais. Prepare um relatrio que resuma as
aplicaes.
4. Acesse nd.com. Leia sobre as aplicaes da em-
presa em investimentos e negociao. Prepare um
relatrio sobre as aplicaes.
5. Acesse nd.com. Faa o download da verso de teste
do Neurosolutions para Excel e faa uma experin-
cia com ele, usando um dos conjuntos de dados dos
exerccios deste captulo. Prepare um relatrio so-
bre sua experincia com a ferramenta.
6. Acesse neoxi.com. Identique pelo menos duas
ferramentas de software que no foram menciona-
das neste captulo. Visite os sites e prepare um bre-
ve relatrio sobre os recursos dessas ferramentas.
7. Acesse neuroshell.com. Veja os exemplos em Gee
Whiz. Comente a viabilidade de atingir os resulta-
dos armados pelos desenvolvedores desse modelo
de rede neural.
W6-38 Business Intelligence
8. Acesse easynn.com. Faa o download da verso de
teste do software. Aps instal-lo, encontre o arqui-
vo de amostra chamado Houseprices.tvq. Treine a
rede neural novamente e teste o modelo fornecendo
alguns dados. Prepare um relatrio sobre sua expe-
rincia com esse software.
9. Acesse statsoft.com. V at Downloads e baixe
pelo menos trs documentos informativos sobre
aplicaes. Qual dessas aplicaes pode ter usado
redes neurais?
10. Acesse neuralware.com. Prepare um relatrio so-
bre os produtos oferecidos pela empresa.
Empresas como a Standard & Poors Corporation,
Moodys Investors Service e Fitch Ratings fornecem
indicadores alfabticos para risco de crdito. No de-
correr de um longo tempo, essas notas estavam em
uso para avaliar empresas e instituies nanceiras.
Entretanto, emitir classicaes soberanas relati-
vamente novo, mas tem visto rpida expanso nos
ltimos anos. O nmero de soberanias classicadas
cresceu de 17, em 1989 para 63, em 1998. Notas de
risco de crdito soberano esto recebendo grande im-
portncia global, tanto como uma medida de risco de
crdito para um pas quanto como uma medida das
empresas que funcionam dentro de um pas. O Bank
for International Settlements (bis.org) esteve frente
no uso de notas de risco de crdito na determinao
da adequao de capital.
Mltiplos fatores so usados na realizao da
anlise do risco de crdito para classicao de pases
soberanos. Eles incluem ndices nanceiros; ambien-
te econmico, poltico e regulatrio; e tendncias da
indstria. No contexto de modelos quantitativos, usar
dados nanceiros, econmicos e de negcios para al-
canar uma nota de risco de crdito um processo
desaador devido s interaes complexas e no-line-
ares entre variveis diferentes. Porm, esse processo
de avaliao de risco carece de uma teoria bem de-
nida, a qual diculta a aplicao de tcnicas matem-
ticas convencionais ou tcnicas baseadas em regras,
embora existam numerosas abordagens quantitativas.
A RNA adequada para modelagem dos determi-
nantes das notas de risco de crdito porque no exige
especicao prvia de modelos tericos. Seu poder
prprio de classicar resultados serve para produzir
uma escala graduada de classicao. A RNA ofere-
ce uma alternativa para as abordagens economtricas
nas quais no h hipteses quanto s propriedades e
relaes subjacentes dentro dos dados. Ela ganha de
todos os outros modelos na derivao de signicado
a partir de dados complicados ou imprecisos. Uma
implementao de RNA bem-sucedida gerar um
sistema de relaes que foi aprendido da observao
de exemplos anteriores, e ela consegue generalizar e
aplicar essas lies a exemplos novos.
Bennell et al.(2006) compararam implementa-
es de RNA abordagem padro para anlise de
risco de crdito de probit. O conjunto de amostra
incluiu 1.383 observaes anuais (m de calendrio
do ano) de notas de risco de crdito soberano para
moedas estrangeiras a longo prazo, atribudas por 11
agncias de classicao de risco internacionais para
70 devedores soberanos durante o perodo entre 1989
e 1999. As variveis de entrada foram escolhidas por
estarem em consonncia com os fatores enfatizados
tanto na literatura terica quanto na emprica como
determinantes da capacidade e disposio de devedo-
res soberanos pagarem a dvida externa.
Alguns dos indicadores econmicos que foram
escolhidos como variveis explicativas so:
Varivel de entrada Descrio
Dvida externa/
exportao
Dvida externa total relativa
s exportaes para o ano
anterior
Balano scal Dcit () ou supervit (+) mdio
anual do governo federal
relativo ao PIB para os trs
anos anteriores (porcentagem)
Balana externa Saldo mdio anual de conta
corrente relativo ao PIB
para os trs anos anteriores
(porcentagem)
ndice de inao Taxa mdia anual de inao
de preos ao consumidor
para os trs anos anteriores
(porcentagem)
PIB per capita PIB para o ano anterior (em
dlares americanos)
Crescimento do PIB Crescimento real mdio anual
do PIB em uma base ano
sobre ano para os quatro anos
anteriores (porcentagem)
Notas de risco de crdito soberano usando redes neurais
CASO DE APLICAO DE FINAL DO CAPTULO
Captulo 6 Redes Neurais para Data Mining W6-39
Indicador de
desenvolvimento
Classicao do pas pelo Fundo
Monetrio Internacional para
o ano atual (1 = industrial, 0 =
no industrial)
Fonte: adaptado de J. Bennell, D. Crabbe, S. Thomas e
O. Gwilym, Modelling Sovereign Credit Ratings: Neural
Networks Versus Ordered Probit, Expert Systems with
Applications, April 2006, pp.415-425.
Alm das variveis macroeconmicas especi-
cadas aqui, dois conjuntos de variveis indicadoras
foram includos para captar efeitos em classicaes
soberanas em um determinado ano; classicao so-
berana atribuda por outras agncias de classicao
de risco e pela localizao da soberania em uma re-
gio geogrca especca.
Os dados foram divididos em trs grupos: trei-
namento (na amostra), teste (fora da amostra) e vali-
dao cruzada. A diviso visada dos dados em 65%,
20% e 15% foi estabelecida para treinamento, teste e
validao cruzada, respectivamente. Entretanto, a se-
parao dos dados foi limitada pelas 16 repeties de
notas por diferentes agncias. Foram implementadas
redes progressivas com multicamadas, todas com uma
camada escondida. O nmero de neurnios na cama-
da escondida foi otimizado pela adio seqencial de
neurnios extras at que nenhuma melhoria na classi-
cao fora da amostra fosse obtida.
Os autores usaram taxas de aprendizado e valo-
res de momentum diferentes, variando de 0,7 a 1. O
treinamento foi realizado por nmeros diferentes de
ciclos (chamados pocas): 1.000, 2.000, 3.000, 4.000
e 5.000. Ao comparar o erro mdio absoluto ao lon-
go dos diferentes testes, os autores selecionaram uma
rede progressiva generalizada (GFF) como a rede de
melhor desempenho.
Vrios critrios so importantes na avaliao do
desempenho das redes neurais. importante distin-
guir entre preciso de modelagem dentro da amostra
e preciso preditiva fora da amostra. Critrios infor-
mativos adicionais tambm esto includos: porcenta-
gem corretamente classicada dentro de dois ou trs
graus de nota, desvio mximo da nota correta e erro
mdio absoluto. Os modelos de rede neural foram
testados vrias vezes, e os autores relataram o desem-
penho mdio, assim como o melhor desempenho em
cada critrio de desempenho.
As agncias de classicao avaliam coletivamen-
te as classicaes soberanas para moeda estrangeira
atravs da avaliao de fatores consistentes em con-
junto com aqueles enfatizados pela teoria como vitais
para determinar a capacidade e disposio da sobera-
nia para pagar a dvida externa. No caso de modelos de
classicao e regresso, o melhor modelo foi obtido
do treinamento para 5.000 pocas. Mantendo em men-
te a porcentagem de notas classicadas com preciso,
o modelo de rede neural baseado em classicao de-
sempenha seu melhor em 42,4% de acertos, com um
desempenho mdio de 40,4%, seguido pelo modelo de
rede neural baseado em regresso, com 33,9% e 34,6%
para melhor desempenho e desempenho mdio, res-
pectivamente. Notas classicadas corretamente dentro
de um grau foram obtidas em 67,3% e 73,5% dos casos
e um desempenho mdio em 63,6% e 68,9% dos ca-
sos para os modelos de classicao e regresso, res-
pectivamente. Dentro de trs graus, o modelo de rede
neural baseado em regresso classicou precisamente
uma mdia de 96,7% das notas, com os outros dois
modelos chegando marca de 90% de preciso.
Na comparao dos dois modelos de rede neu-
ral, o modelo de regresso obtm uma porcentagem
menor de notas corretamente classicadas do que o
modelo de classicao, mas tende a se desviar muito
menos se uma nota no estiver precisamente correta.
As descobertas indicam que a RNA com o in-
tuito de adaptar notas de risco de crdito para cor-
poraes conforme feito pelas maiores agncias de
classicao de risco (p.ex., Moodys, S&P) pode
ser aplicada com xito s classicaes soberanas. O
papel de um analista e o processo parcialmente sub-
jetivo de avaliar notas de risco de crdito no podem
ser eliminados pelas redes neurais. Porm, parece que
a RNA poderia informar e dar suporte ao analista no
processo de tomada de deciso.
Fontes: J. Bennell, D. Crabbe, S. Thomas e O. Gwilym,
Modelling Sovereign Credit Ratings: Neural Networks
versus Ordered Probit, Expert Systems with Applications,
April 2006, pp.415-425; e S. Hoti e M. McAleer, Country
Risk Ratings: An International Comparison, e.u-tokyo.
ac.jp/cirje/research/papers/mcaleer/mcaleer4.pdf (aces-
sado em Maro de 2006).
QUESTES SOBRE O CASO
1. O que so classicaes soberanas? Por que elas
so importantes?
2. Qual o papel desempenhado pelas agncias de
classicao de risco?
3. Qual a funo das redes neurais nas classica-
es soberanas? Voc acha que devemos depender
completamente da predio das redes neurais?
4. O que voc concluiria a partir dos resultados
obtidos nas experincias de predio de nota ba-
seada em rede neural?
5. Voc um analista de crdito na Standard &
Poors. Foi solicitado que voc classique o cr-
dito soberano da ndia. Quais fatores voc levaria
em considerao para chegar a uma nota de risco
de crdito, e como voc usaria redes neurais para
chegar a um resultado? Explique.
W6-40 Business Intelligence
Referncias
Ainscough, T.L. e J.E. Aronson. (1999). A Neural Net-
works Approach for the Analysis of Scanner Data. Jour-
nal of Retailing and Consumer Services, Vol.6.
Altman, E.I. (1968). Financial Ratios, Discriminant Anal-
ysis and the Prediction of Corporate Bankruptcy. Jour-
nal of Finance, Vol.23.
Bennell, J., D. Crabbe, S. Thomas e O. Gwilym. (2006,
April). Modelling Sovereign Credit Ratings: Neural
Networks versus Ordered Probit, Expert Systems with
Applications.
Collard, J.E. (1990). Commodity Trading with a Neural
Net. Neural Network News, Vol.2, No.10.
Collins, E., S. Ghosh, C.L. e Scoeld. (1988). An Applica-
tion of a Multiple Neural Network Learning System to
Emulation of Mortgage Underwriting Judgments, IEEE
International Conference on Neural Networks.
Davis, J.T., A. Episcopos e S. Wettimuny. (2001). Predict-
ing Direction Shifts on Canadian-U.S. Exchange Rates
with Articial Neural Networks, International Journal
of Intelligent Systems in Accounting, Finance and Man-
agement, Vol.10, No.2.
Dutta, S. e S. Shakhar. (1988, July 24-27). Bond-Rating:
A Non-Conservative Application of Neural Networks,
Proceedings of the IEEE International Conference on
Neural Networks, San Diego.
Fadlalla, A. e C. Lin. (2001). An Analysis of the Applica-
tions of Neural Networks in Finance. Interfaces, Vol.31,
No.4.
Fishman, M., D. Barr e W. Loick. (1991, April). Using
Neural Networks in Market Analysis, Technical Analy-
sis of Stocks and Commodities.
Fozzard, R., G. Bradshaw e L. Ceci. (1989). A Connec-
tionist Expert System for Solar Flare Forecasting, em
D. S. Touretsky (ed.), Advances in Neural Information
Processing Systems Vol.1. San Mateo, CA: Kaufman
Publishing.
Francett, B. (1989, January). Neural Nets Arrive. Com-
puter Decisions.
Gallant, S. (1988, February). Connectionist Expert Sys-
tems, Communications of the ACM, Vol.31, No.2.
Haykin, S.S. (1999). Neural Networks: A Comprehensive
Foundation, 2nd ed. Upper Saddle River, NJ: Prentice
Hall.
Hill, T., T. Marquez, M. OConnor e M. Remus. (1994).
Neural Network Models for Forecasting and Decision
Making, International Journal of Forecasting, Vol.10.
Hopeld, J. (1982, April). Neural Networks and Physi-
cal Systems with Emergent Collective Computational
Abilities. Proceedings of National Academy of Science,
Vol.79, No.8.
Hopeld, J.J. e D.W. Tank. (1985). Neural Computation
of Decisions in Optimization Problems, Biological Cy-
bernetics, Vol.52.
Kamijo, K. e T. Tanigawa. (1990, June 7-11). Stock Price
Pattern Recognition: A Recurrent Neural Network Ap-
proach, International Joint Conference on Neural Net-
works, San Diego.
Lee, P.Y., S.C. Hui e A.C.M. Fong. (2002, September/Oc-
tober). Neural Networks for Web Content Filtering.
IEEE Intelligent Systems.
Liang, T.P. (1992). A Composite Approach to Automated
Knowledge Acquisition. Management Science, Vol.38,
No.1.
McCulloch, W.S. e W.H. Pitts. (1943). A Logical Calculus
of the Ideas Imminent in Nervous Activity. Bulletin of
Mathematical Biophysics, Vol.5.
Mighell, D. (1989). Back-Propagation and Its Applica-
tion to Handwritten Signature Verication, em D.S.
Touretsky (ed.), Advances in Neural Information Pro-
cessing Systems. San Mateo, CA: Kaufman.
Minsky, M. e S. Papert. (1969). Perceptrons. Cambridge,
MA: MIT Press.
Principe, J.C., N.R. Euliano e W.C. Lefebvre. (2000). Neu-
ral and Adaptive Systems: Fundamentals Through Simu-
lations. New York: Wiley.
Rochester, J. (ed.). (1990, February). New Business Uses
for Neurocomputing. I/S Analyzer.
Surkan, A. e J. Singleton. (1990). Neural Networks for
Bond Rating Improved by Multiple Hidden Layers.
Proceedings of the IEEE International Conference on
Neural Networks, Vol.2.
Tang, Z., C. de Almieda e P. Fishwick. (1991). Time-Se-
ries Forecasting Using Neural Networks vs. Box-Jenkins
Methodology. Simulation, Vol.57, No.5.
Thaler, S.L. (2002, January/February). AI for Network
Protection: LITMUS: Live Intrusion Tracking via Mul-
tiple Unsupervised STANNOs. PC AI.
Walczak, S., W.E. Pofahi e R.J. Scorpio. (2002). A Deci-
sion Support Tool for Allocating Hospital Bed Resources
and Determining Required Acuity of Care. Decision
Support Systems, Vol.34, No.4.
Wilson, R. e R. Sharda. (1994). Bankruptcy Prediction
Using Neural Networks. Decision Support Systems,
Vol.11.
Zahedi, F. (1993). Intelligent Systems for Business: Expert
Systems with Neural Networks. Belmont, CA: Wadsworth.

Você também pode gostar