Isi

Introduo aos Sistemas Inteligentes
Aplicaes em Engenharia de
Redes Neurais Artificiais, Lgica Fuzzy e
Sistemas Neuro-Fuzzy

Adolfo Bauchspiess

Braslia, novembro de 2008
@AB2008 Introduo aos Sistemas Inteligentes 2

RESUMO

Objetivo do Curso
O mini-curso Sistemas Inteligentes Redes Neurais e Lgica Fuzzy tem como objetivo
apresentar tcnicas de projeto para a engenharia, Redes Neurais Artificiais e Lgica Fuzzy, que
se originaram de pesquisas na rea de inteligncia artificial.
Motivao
Redes Neurais Artificiais:
Programas de computador podem emular a maneira como o crebro resolve problemas:
uma grande rede altamente interconectada de neurnios relativamente simples trabalhando em
paralelo. Convencionou-se assim, chamar de Redes Neurais Artificiais toda estrutura de
processamento paralelo que utiliza o conexionismo como paradigma. Talvez a caracterstica mais
importante das Redes Neurais Artificiais seja a sua capacidade de aprendizado, i.e., problemas
complexos em engenharia podem ser resolvidos treinando-se a rede pela apresentao do padro
de comportamento desejado.

Lgica Difusa (Fuzzy):
Seres humanos tomam decises considerando no valores exatos, mas sim utilizando uma
lgica que leva em conta um certo "grau de pertinncia" das variveis envolvidas no processo
decisrio. No se liga, por exemplo, o ar condicionado em 27C, s 9
57
h, e umidade relativa do ar
em 77%, mas sim, quando est "quente", no "comeo da manha" e quando o ar est "abafado".
Estas variveis lingsticas podem ser melhor descritas e manipuladas num conjunto Fuzzy. A
Lgica Fuzzy assim, uma generalizao da lgica clssica que permite incluir a impreciso
("fuzziness") nos processos decisrios.
Metodologia
Apresentao em Power Point acompanhada de apostila do curso. O curso ser orientado a
aplicaes das Toolboxes do MatLab: Neural Network e Fuzzy Logic, que sero utilizadas
durante o mini-curso.
Contedo
Resumo

1. Introduo
Inteligncia Artifical
Sistemas Inteligentes
Engenharia do Conhecimento
Algoritmos Genticos

2. Redes Neurais Artificiais
Estruturas e Dinmicas de Redes Neurais Artificiais
Sinais e Funes de Ativao
Algoritmos e Estratgias de Aprendizado
Implementaes de Redes Neurais
Perceptron Multicamadas
Rede de Hopfield
Rede de Base Radial

3. Lgica Fuzzy
Lgica Fuzzy e Sistemas Fuzzy
Inferncia Fuzzy
ANFIS

4. Ferramentas Computacionais
MatLab Neural Network Toolbox
MatLab Fuzzy Logic Toolbox

5. Exemplos de Aplicaes em Engenharia
Reconhecimento ptico de Caracteres (OCR)
Identificao de Falhas em Estruturas Mecnicas
Controle Fuzzy de Processo de Nvel de Lquidos

Concluses

Bibliografia
1. Introduo
O mini-curso Sistemas Inteligentes Redes Neurais e Lgica Fuzzy tem como objetivo apresentar
tcnicas de projeto para a engenharia, Redes Neurais Artificiais e Lgica Fuzzy, que se originaram de
pesquisas na rea de inteligncia artificial. Nesta introduo pretende-se contextualizar o programa
proposto em relao ao domnio mais amplo da inteligncia artificial e da engenharia do conhecimento. So
apresentados argumentos que permitem justificar a utilizao destes novos paradigmas em relao aos
paradigmas convencionais.
1.1. Inteligncia Artificial
o ramo da cincia que estuda o conjunto de paradigmas que pretendem justificar como um
comportamento inteligente pode emergir de implementaes artificiais, em computadores. O que pode ser
considerado um sistema inteligente , no entanto, ainda bastante polmico. Um subterfgio permite
identificar sistemas inteligentes de forma indireta. Considera-se um programa de computador inteligente
quando realiza uma tarefa, que se fosse feita por um ser humano, seria considerada inteligente.
Sistemas complexos no devem ser confundidos com sistemas inteligentes. Assim um rob
manipulador que aplica pontos de solda na carroaria de veculos, apesar de realizar uma seqncia
complexa de movimentos, ter requisitos de operao em tempo real e segurana aguados no
considerado inteligente. Este rob apenas repete uma seqncia de movimentos previamente armazenada.
Falta a este sistema a capacidade de se adaptar a situaes completamente novas. Uma das caractersticas
de sistemas inteligentes justamente a capacidade de aprender, de se adaptar a um ambiente desconhecido
ou a uma situao nova.

Inteligncia: aprendizado, adaptao, compreenso.

Paradigmas
de IA
Simbolista
Conexionista
(Numrico)
(Lisp, Prolog) - Sistemas Especialistas
Simblico - Fuzzy
Sub-Simblico - RNA

A abordagem conexionista considera ser virtualmente impossvel transformar em algoritmos - i.,
reduzir a uma seqncia de passos lgicos e aritmticos diversas tarefas que a mente humana executa
com facilidade e rapidez, como por exemplo:

Reconhecer rostos,
Compreender e traduzir lnguas,
Evocao de memria pela associao.

O processo computacional deve reproduzir a capacidade do crebro de se auto-organizaraprender!

Crebro
Humano
Sistemas
Inteligentes
Numricos
Emular a Fisiologia
=> Redes Neurais Artificiais
Emular a Psicologia
=> Lgica Fuzzy (Nebulosa)

1.2. Mtodos em Engenharia do Conhecimento.
De acordo com a disponibilidade de dados e/ou teoria, diferentes mtodos so indicados para cada
situao particular. A figura 1 apresenta os principais mtodos:
Si stemas IA
Si mbli cos
Si stemas
Di f usos
Al gori tmos
Genticos
Redes
Neurais
Mtodos
Estatsticos
Si stemas IA
Hbri dos
TEORI A
DADOS
Pobre Rico
Ri co
Pobre

Figura 1 Mtodos de engenharia do conhecimento.
Quando existem apenas exemplos (amostras representativas) de um dado processo, sem regras que
expliquem a sua gerao, ento os mtodos estatsticos permitem obter os melhores resultados. No extremo
oposto do grfico esto os mtodos de Inteligncia Artificial Simblicos, como por exemplo os sistemas
especialistas. Neste caso o importante so as regras e o processo de inferncia que permite resolver um
certo problema. A teoria - lgica clssica baseada em axiomas - muito bem estabelecida e prescinde de
exemplos para a implementao do sistema especialista.
Os algoritmos genticos, uma das vertentes da computao evolucionria, por ser justificada
exclusivamente pela heurstica, est no canto inferior esquerdo do grfico. No existe muita base terica
para a sua utilizao e tampouco tm-se garantias de que um conjunto de amostras rico em informaes
sobre o processo, leve soluo do problema. Estes mtodos tiveram origem na esperana de que os
processos de transmisso de material gentico entre geraes de populaes, levando eventualmente a
indivduos mais aptos, pudesse ser mimetizado em um programa de computador. Dado um conjunto inicial
de possveis solues sub-timas estas podem ser combinadas (cruzamento de material gentico)
sucessivamente (geraes) at obter-se a soluo tima do problema.
Os sistemas difusos, fundamentados pela lgica fuzzy, tm uma boa base terica. Podem ser
construdos a partir de regras formuladas por especialistas da aplicao em particular. Amostras do
processo no so necessrias. Estes sistemas utilizam uma lgica multi-valorada que permite graus de
pertinncia e no verdades ou falsidades absolutas. A dificuldade de sua aplicao est muitas vezes
justamente na escolha dos novos graus de liberdade obtidos.
Os sistemas baseados em Redes Neurais Artificiais (RNA) ocupam uma regio intermediria em
relao ao grfico Teoria x Dados. Estes sistemas exploram razoavelmente bem as amostras do processo.
De fato uma das grandes vantagens desta abordagem a possibilidade de treinamento das RNAs a partir
dos dados. No so necessrias regras ou uma teoria que descreva o processo, as RNAs simplesmente
aprendem com os exemplos. Estes exemplos so apresentados sucessivamente RNA, que se adapta um
pouco a cada exemplo. O comportamento desejado reforado e o comportamento indesejado reprimido
at que o sistema realize a tarefa almejada. Tarefas tpicas para RNAs so a classificao de padres e a
aproximao de funes no lineares.
Cada mtodo apresentado possui aplicaes para as quais fornece melhores resultados e situaes
em que no so indicados. Diversas implementaes de produtos comerciais, como por exemplo sistemas
de OCR (Optical Character Recognition), demonstraram que os melhores resultados podem ser obtidos
da combinao pela diferentes mtodos. Em OCR combinam-se mtodos estatsticos com tcnicas de
extrao de caractersticas (feature extraction) e redes neurais artificiais.
1.3. Paradigma Simbolista versus Paradigma Conexionista
Nesta seo apresentam-se alguns argumentos que destacam vantagens do paradigma conexionista
em relao ao paradigma simbolista.
Percepo

Figura 2 Quadro de Kanizsa, 1976
O quadro de Kanizsa ilustra a capacidade que temos em lidar com padres incompletos. Neste caso
interpolamos a informao que falta e vemos um quadrado branco. Este quadrado no existe formalmente
e um programa de computador para interpretao de imagens muito provavelmente no o encontraria, por
no existir um elemento de quatro lados nesta figura. Padres incompletos ocorrem muitas vezes em
engenharia na forma de sinais ruidosos e faz-se necessrio reconstruir a informao original. As redes
neurais artificiais podem ser treinadas para lidar com padres incompletos.
Paradoxos
Epimenides, de Creta, afirmava: Todos em Creta mentem. Como interpretar esta afirmao? Se
Epimenides diz a verdade, ento de fato ele est mentindo; se porm ele est mentindo, ento a sua
afirmao verdadeira. uma situao sem sada. Na lgica clssica no h soluo para o paradoxo.
Em lgica Fuzzy os paradoxos podem ser reduzidos a meias verdades ou meias mentiras, como
se queira, atravs de uma lgica multi-valorada. O verdadeiro (1) e o falso (0) so substitudos por graus de
pertinncia que podem assumir qualquer valor entre 0 e 1. O valor 0,5 descreve um paradoxo.
Consideremos o conceito lingustico quente. Os seres humanos tomam decises baseados neste
conceito. Existe portanto uma lgica, um formalismo, que permite operar com este conceito. Uma
temperatura ambiente de 10C com certeza no quente. Atribumos a ela e a todos os valores de
temperatura abaixo de 10C o valor 0. Por outro lado h consenso de que 30C quente. Atribumos a esta
temperatura o grau de pertinncia 1 no conjunto das temperaturas quentes. Entre estes dois extremos
podemos arbitrar uma transio suave. Ao ponto central, em 20C pode ser atribudo o valor 0,5 quente.
Isto , em palavras, 20C no quente e tambm no deixa de s-lo.
A lgica fuzzy permite operacionalizar estes conceitos lingsticos construindo com elas um
conjunto de regras e permitindo com elas a inferncia, i., a gerao de fatos novos a partir de premissas.
Conjectura de Gdel
Kurt Gdel apresentou em 1931 uma conjectura que abalou a convico matemtica dominante. De
maneira simplificada a conjectura de Gdel :

Toda formulao axiomtica livre de contradies da teoria dos nmeros contm sentenas que
no podem ser verificadas e tampouco negadas

Antes de Gdel imaginava-se ser possvel provar ou negar qualquer sentena matemtica partindo-se
de axiomas. Caso isto fosse possvel ento programas de computador poderiam ser escritos para resolver
qualquer problema que pudesse ser formalizado.
Douglas Hofstadter apresenta em seu hoje clssico Gdel, Escher, Bach: an Eternal Golden
Braid,Basic Books, New York, 1979 uma ilustrao para a conjectura de Gdel.
A
x
i
o
m
a
s
A
x
i
o
m
a
s
n
e
g
a
d
o
s
Sentenas Sentenas
negadas
verdades
no
alcanveis
inverdades
no
alcanveis

Figura 3 Visualizao do conjunto de sentenas verdadeiras, falsas, que podem ou no ser
provadas.
A conjectura de Gdel nos leva a considerar que existam sistemas que funcionam de forma correta,
que porm no podem ser uma reproduzidos por uma seqncia de passos lgicos e aritmticos.
1.4. Soluo Heurstica de Problemas
A palavra heurstica vem do grego e significa descobrir. Tem a ver com o uso do senso comum
na soluo de problemas. Exemplos:
Como fritar um ovo
Como estacionar um carro

Um problema interessante que admite soluo heurstica o do caixeiro viajante (TSP- Travelling
Salesman Problem), que consiste em encontrar o menor caminho que liga N cidades e cada cidade deve ser
visitada uma nica vez. Uma heurstica que funciona muito bem a do vizinho mais prximo. Partindo-
se de uma cidade qualquer vai-se sempre para a cidade mais prxima que ainda no foi visitada. A
trajetria resultante no em geral tima, mas bastante satisfatria.
A seqncia de perfurao de uma placa de circuito impresso ou a sua montagem com componentes
eletrnicos so exemplos de aplicao do TSP.
Uma heurstica no garante a soluo tima. Permite, no entanto, em geral uma grande reduo de
custo e tempo.

Figura 4 Uma regra heurstica leva do espao domnio ao espao soluo.

D
Domnio

Heurstica

Espao Soluo S

Figura 5 Heursticas fornecem solues sub-timas.

Figura 6 Heursticas bem-formadas esto prximas da soluo tima.

Heursticas bem-formadas fornecem solues que esto muito prximas da soluo tima.

Uma regra heurstica da forma:

SE <condio> ENTO <concluso>

Sistemas difusos representao de conhecimento heurstico por meio regras fuzzy.
Redes Neurais Artificias aprendem heurstica a partir dos dados.

Ambos so aproximadores universais, isto , permitem aproximar uma funo qualquer com
preciso arbitrria.

D
S
H1
H2
H3 Soluo tima
Espao
Soluo
D
S
H2
H3 Soluo tima
Espao
Soluo
H4
H5 H1
1.5. Algoritmos Genticos
Os algoritmos genticos, bem como a assim denominada computao evolucionria, so mtodos
heursticos para a soluo de problemas. John Holland props os algoritmos genticos em 1975 inspirado
pela teoria da evoluo de Charles Darwin. Os conceitos bsicos dos AG so:

Gen
Cromossomo representa um indivduo, uma soluo possvel
Populao
Cruzamento
Mutao
Critrio de Avaliao
Seleo

A idia bsica de buscar a soluo tima para um problema partindo-se que uma Populao Inicial,
que representam um conjunto inicial de candidatos soluo. A partir do Cruzamento destes indivduos,
chega-se a uma nova gerao. A Seleo dos que estiverem mais prximos da soluo tima, i.., os mais
aptos, permite levar a uma nova gerao. E assim por diante. Eventualmente pode-se alterar alguns gens,
representando uma mutao. Ver figura 7.

Populao
Inicial
Seleo
Seleo
Seleo
Seleo
X
Objetivo
Espao Soluo
Cruzamento Cruzamento
Mutao

Figura 7 Representao grfica do algoritmo gentico.

Exemplo: Considere o jogo de adivinhar o nmero 001010 (Mastermind)

O critrio de seleo a proximidade do nmero 001010.

Populao Inicial Avaliao Seleo
A 010101 1
B 111101 1
C 011011 4 *
D 101100 3 *

Nova populao em que os indivduos C e D so os pais.
Nova Populao Avaliao Seleo

C 01:1011 E 01 11 00 3
D 10:1100 F 10 10 11 4 *
C 0110:11 G 01 10 00 4 *
D 1011:00 H 10 11 11 3

Nova populao em que os indivduos F e G so os pais.

F 1:0 10 11 I 11 10 00 3
G 0:1 10 00 J 00 10 11 5 *
F 10 1:0 11 K 10 10 00 4 *
G 01 1:0 00 L 01 10 11 4

Nova populao em que os indivduos J e K so os pais.

J 00 10: 11 M 00 10 00 5
K 10 10: 00 N 10 10 11 5 *
J 00 10 1:1 O 00 10 10 6 Sucesso FIM
K 10 10 0:0 P 10 10 01 3

Sucesso aps 16 questes. Por busca exaustiva teramos 2
6
= 64 combinaes possveis.

2. Redes Neurais Artificiais
As redes neurais artificiais que so utilizadas em engenharia foram inspiradas nas redes neuronais
biolgicas. No entanto convencionou-se chamar redes neurais artificiais a toda topologia de processamento
de sinais constituda de vrios elementos processadores simples altamente interconectados, i., estruturas
baseadas no conexionismo. Inicialmente este captulo trata dos fundamentos biolgicos, para ento
apresentar as redes neurais artificiais mais conhecidas.
2.1. Fundamentos Biolgicos
Esta introduo aos fundamentos biolgicos apresenta apenas os elementos necessrios
compreenso da anatomia (estrutura) e fisiologia (funcionamento) dos neurnios biolgicos que serviram
de inspirao para as primeiras redes neurais artificiais.
O sistema nervoso atua em conjunto com o sistema endcrino no controle do corpo.
O sistema nervoso obtm informaes do meio ambiente atravs de sensores que so combinadas
com informaes armazenadas para produzir as aes do corpo.

Apenas uma pequena parte das informaes obtidas relevante para o funcionamento do corpo.

O sistema nervoso pode ser considerado em trs nveis:

Cordo espinal
Crebro baixo
Crtex cerebral

Cada um constitudo por neurnios de diferentes
anatomias.

Estima que o crebro humano tenha por volta de
10
11
neurnios, cujo comprimento total somado chega a
10
14
metros.

Controle de Corpo
Sistema Nervoso
Sistema Endcrino Metabolismo
Contrao Muscular, Fala
Informaes
Sensoriais
Informaes
Armazenadas
(hereditrias/aprendidas)
Sistema Nervoso Aes (Respostas do Corpo)
Crtex
Crebro baixo
Cordo espinal

Figura 8: Tipos de neurnios

Figura 9: Conexo Sinptica

Figura 10: Lmina que mostra o padro de conexo dos neurnios em camadas.


Figura 11: Sinapses Excitatrias e Inibitrias

- estrutural
Nveis de processamento da informao pelo crebro - fisiolgico
- cognitivo
Figura 12 Neurnio Biolgico
Sinapse conexo entre o terminal de um neurnio aos dendritos de outros neurnios.

Muitas formas de conexo entre neurnios, contudo observa-se um padro de conexo bastante
seletivo e especfico.
O Fluxo da informao (corrente eltrica) sempre dos dendritos para o axnio.
Dendritos
Corpo
Celular
(Soma)
Impulsos
de
Entrada
Impulso
de
Sada
Axnio
Arborizao axonial
(terminais)
Ocorre um processo de integrao (soma) dos estmulos de entrada, produzindo um impulso eltrico
que se propaga atravs do axnio, caso a soma das entradas seja maior que um certo limiar.

Excitatrias A B
Sinapses /
\
inibitrias A B
Figura 13 - Neurotransmissores no gap sinptico.

Apenas um tipo de neurotransmissor liberado em uma dada ativao e o efeito da sinapse sempre
toda excitatria ou toda inibitria.
2.2. O Potencial de Ao
O impulso nervoso ou potencial de ao uma onda de despolarizao que se propaga ao longo da
membrana. Ocorre quando a membrana despolarizada suficientemente para cruzar o limiar de disparo. A
velocidade de propagao de at 150m/s em clulas mielinizadas.
Figura 14 O potencial de ao.
Tn durao do impulso nervoso.
Ta perodo de refrao absoluta.
Tr perodo de refrao relativa.

A figura 14 ilustra a tenso eltrica que pode ser observada em um ponto fixo do axnio ao longo do
tempo quando da passagem de um impulso nervoso. Depois de Tn, a durao do impulso, h um intervalo
de tempo Ta em que o neurnio no pode disparar, independente do potencial acumulado pelo soma. No
perodo de refrao relativa possvel que o neurnio dispare, desde que o potencial acumulado pelo soma,
mais elevado que de costume, seja suficiente. Depois de aprox. 10 ms, o neurnio est novamente em seu
estado de repouso e pode disparar novamente em seu potencial de disparo usual.
1.
3.
4.
vesculas de
neurotransmissores
neurotransmissores
Canais inicos abertos
Membrana
pr-sinptica
Membrana
ps-sinptica
2.
120
2 4 6 8 10 -60
mV
ms
Tn Ta Tr
2.3. Integrao Espao/Temporal dos Estmulos
A membrana do axnio mantm por algum tempo a memria da atividade sinptica integrao
temporal. Efeito combinado de todos os estmulos excitatrios e inibitrios integrao espacial.
Soma
Axnio
+
A
T1 T2
T3
T4
T5
T6
T7
B
C
Sinpse excitatria
Sinpse inibitria
D
E
F
+
+
-
+
+
+
+
-

Figura 15 Sinpses excitatrias e inibitrias
A
T1 T2 T3 T4 T5 T6
T7
t
B
C
D
E
F
Limiar
Potencial
da Membrana
Potencial
de Ao

Figura 16 Integrao espao/temporal dos estmulos

Freqncia mxima de pulsos no axnio:
n a
T T
f
+
=
1
max

Durante o perodo refratrio relativo, a ocorrncia de novos impulsos nervosos com freqncia
crescente s possvel com o aumento da despolarizao.
O neurnio codifica em freqncia de pulsos o resultado da integrao espao/temporal.

f
m a x
freqncia de pulsos
limiar despolarizao

Figura 17 Freqncia de pulsos em funo da desporalizao do neurnio.
T
i
i i T
dt t x t g f
0
) ( ) (

f
T
freqncia mdia de impulsos nervosos no intervalo de tempo T,
i
(t) ganhos sinpticos,
x
i
(t) entradas dos neurnios.

A caracterstica bsica do funcionamento do neurnio biolgico que inspira as redes neurais
artificiais o comportamento monotnico saturado de sua resposta em termos de freqncia de pulsos. As
RNAs utilizam a funo pulso, sigmide e tangente hiperblica para simular o neurnio natural.
Neurnios com conexo lateral
Embora a maioria das estruturas de processamento da informao em neurnios seja unidirecional e
organizada em camadas tm-se tambm exemplos de conexo lateral que inspiram redes com
realimentao.
Figura 18 Circuito neural inibidor dos antagonismos.
Neurnio
1
Impulsos de Comando
conexo excitatria
conexo inibitria
Neurnio
1
Msculos
Extensores
Msculos
Flexores
2.4. Modelo bsico do neurnio artificial
Um modelo computacional bsico para o neurnio considera a soma ponderada de entradas que so
submetidas a uma funo de ativao contnua com saturao. Em vez de pulsos muito mais simples
processar informao analgica (contnua).
Ui
p1 wi1
p2 wi2
p3 wi3
pj wij
pn
p0
bi
polarizao
neurnio i
Sinapses
win
ai

Figura 19 Neurnio artificial bsico
A soma ponderada das entradas representada por
. ,
2
1
2
1
1
=
+ = + =
=
in
i
i
n
i
t
i
n
j
i j ij i
w
w
w
p
p
p
b b p w u
M M
w p
p w

Sinapse excitatria w
ij
> 0,
Sinapse inibitria w
ij
< 0.

1
ai
ui
0
i
i
du
da

Figura 20 Funo de ativao sigmide (em forma de S, sigma em grego).
Da mesma forma como os neurnios naturais esto organizados em camadas, as redes neurais
artificiais geralmente tem esta mesma topologia. Como o tecido neuronal apresenta especializao em
sistemas especficos e no especficos, os sistemas artificias processam a informao de forma semelhante,
sendo que conceitos mais abstratos so representados por camadas mais profundas.

2.5. Comparao Crebro x Computador
A seguinte comparao entre o crebro e o computador apenas dar mostrar a ordem de grandeza
dos elementos processadores envolvidos.

Crebro Computador
# elementos processadores 10
11
neurnios 10
9
transistores
Forma de processamento Massivamente paralelo Em geral serial
Memria Associativa Endereada
Tempo de chaveamento 1 ms 1 ns
Chaveamentos /s 10
3
/s 10
9
/s
Chaveamentos totais (terico) 10
14
/s 10
18
/s
Chaveamentos totais (real) 10
12
/s 10
10
/s

Regra dos 100 passos:
Pessoas reconhecem um rosto conhecido em 0.1 s. Considerando 1ms por neurnio, implica que o
crebro executa no mximo 100 passos seqnciais at reconhecer o padro.
Em 100 passos seqnciais um computador convencional (arquitetura von Neumann) no faz
praticamente nada.

Novas arquiteturas de processamento paralelo massivo so necessrias.
2.6. Perspectiva Histrica de RNAs
Apresentam-se algumas datas, pesquisadores e inovaes que tiveram grande repercusso na rea de
Redes Neurais Artificiais:

1943 McCulloch Neurnio Booleano
1949 Hebb Regra de aprendizado
1957 Rosenblatt Perceptron
1960 Widrow-Hoff ADALINE/MADALINE LMS
Rosenblatt Perceptron Multicamadas, sem treinamento
1969 Minsky-Papert Perceptrons
1974 Werbos Algoritmo Error Backpropagation sem repercusso
1982 Hopfield Rede realimentada
1986 Rumelhart, Hinton & Williams
PDP MIT Backpropagation p/ Perceptron Multicamadas
Funo de ativao contnua sigmide
1987 Kosko BAM

O neurnio booleano e o perceptron tiveram grande repercusso quando foram propostos, pois
imaginava-se que poderiam servir de modelo para os processos decisrios mentais. A regra de aprendizado
por reforo positivo de Hebb era bastante intuitiva e podia ser verificada na prtica educacional.
A dificuldade de representar funes no-linearmente separveis, como o x-or, apontada por Minsky
& Papert em Perceptrons levou ao desencantamento da comunidade cientfica em relao s RNAs.
Apenas a partir do algoritmo backpropagation apresentado pelo grupo de processamento paralelo
distribudo do MIT em 1986 que houve um ressurgimento do interesse pelas redes neurais artificiais.
Vrios congressos e revistas cientficas que tratam de RNAs atestam o alcance desta tcnica na
comunidade cientfica. No Brasil o CBRN Congresso Brasileiro de Redes Neurais teve a sua 5
a
edio
realizada no Rio de Janeiro em Maro de 2001. O SBAI Simpsio Brasileiro de Automao Inteligente,
tambm em sua 5
a
edio em 2001, tambm reserva grande espao para aplicaes de RNAs.
Entusiasmo
Inicial
Desencantamento
Ressurgimento
2.7. O Neurnio de McCulloch (1943)
Caso particular de descriminador de n entradas {p
1
, p
2
,... p
n
}
degrau ] 1 ; 0 [ ) (
1
=
=

=
a b F b p w F a
t
n
i
i i
p w
F = funo degrau

Diviso do espao euclidiano
n
em duas regies A e B
) 0 ( 0
) 1 ( 0
= <
= >
a B x b
a A x b
t
t
p w
p w

Figura 21 - O neurnio de MacCulloch

Para n=2
b p w
i
i i
=
=
2
1

b p w p w = +
2 2 1 1

Figura 22 Separao do plano em duas regies pelo neurnio de McCulloch

O neurnio de McCulloch como classificador de padres

Sejam
{ }
{ }
m
k
z z z
u u u
K
K
, ,
, ,
2 1 2
2 1 1
=
=
aglomeraes de pontos

duas colees de vetores n-dimensionais.

O descriminador dever fornecer a=1 se
1
p e a=0 se
1
p . Isto s possvel se houver um
hiperplano que separe os dois aglomerados:

b p w
t
n
i
i i
= =
=
p w
'
1
(3.1)

w
1
p
1
b
p
2
p
n
w
2
w
n
+
A
B
p
1
p
2
o
o
o
o
o o
o o
o o
o o o o
x x x x x x
x
x
x x
x
x
x x x x

Figura 23 Colees linearmente separveis e linearmente dependentes (no-separveis).
o
o o o o
o
(0,0) (0,0) (0,0)
(0,1) (0,1) (0,1) (1,1) (1,1) (1,1)
(1,0) (1,0) (1,0)
x x
x x
x x
A
A
A
B
B
B
B
AND OR X-OR

Figura 24 Algumas funes booleanas de duas variveis representadas no plano binrio.
2.8. Classificadores Lineares e No-Lineares
Objetivo: Treinar uma rede para determinar a equao do hiperplano separador.
Para n entradas, m = 2
n
padres de entrada.
Existem
n
m 2
2 2 = possveis funes lgicas conectando n entradas para uma sada binria.

w
1
p
1
p
2
1
w
2
b
+
(1,1)
(1,0)
o
o
x
x
(0,0)
(0,1)
p
1
p
2
Figura 25 O neurnio de McCulloch e o X-OR
A funo X-OR no linearmente separvel e assim no pode ser aprendida pelo neurnio booleano
de McCulloch. Widner apresentou em 1960 um estudo sobre as funes linearmente separveis:

Tabela 1 Funes linearmente separveis
n n
o
de padres
binrios
n
o
de funes
lgicas
linearmente
separveis
% linearmente
separvel
1 2 4 4 100
2 4 16 14 87,5
3 8 256 104 40,6
4 16 65536 1.772 2,9
5 32 4,3 x 10
9
94.572 2,2 x 10
-3

6 64 1,8 x 10
19
5.028.134 3,1 x 10
-13

As funes lgicas de uma varivel:
A, A , 0, 1

As funes lgicas de duas variveis:
A, B, B , A , 0, 1, , , , , B A B A B A B A , , , , B A B A B A B A B A B A ,

Verifica-se por esta tabela que neurnios que podem apenas representar funes linearmente
separveis so de pouca utilidade, uma vez que uma percentagem nfima (3,1 x 10
-13
% para sistemas com
seis entradas) de funes lgicas est nesta categoria.
Perceptron binrio de duas etapas
A utilizao de mais um neurnio, em uma camada adicional, pode, em princpio, realizar um
sistema para classificar polgonos convexos. A dificuldade justamente encontrar um procedimento de
treinamento para este tipo de rede.
p
1
1
1
p
2
a
5
>b
5
a
3
>b
3
a
4
>b
4
p
1
w
1 3
w
3 6
w
4 6
a
w
5 6
p
2
3
4 6
5
Figura 26 Classificao de polgonos convexos com o neurnio booleano.
O neurnio 6 na figura 26 implementa um E-lgico fazendo-se
=
=
5
3
6 6
i
i
w b . Outra funo binria,
p.ex: OR, NAND, poderia tambm ser facilmente implementada.
Por exemplo: 1 1 1 ;
3
1
5 4 3 6 6 56 46 36
= = = = = = = = a a a se somente e se a b w w w .
Perceptron binrio de trs etapas
Pode ser utilizado para representar sobreposies e cortes de polgonos convexos.

p
1
1
1
p
2
p
1
w
1 3
w
3 9
w
4 9
A
A
B
B
w
5 9
a
1 1
a
1 1
=A B
^
p
2
3
6
4
7
9
10
10
5
8

Figura 27 Classificao de regio cncava e no contgua com o neurnio booleano.
Novamente a configurao de trs camadas de perceptrons pode apenas em princpio representar
mapeamentos complexos da entrada para a sada. Um gerador de nmeros aleatrios poderia ser utilizado
para os pesos, na esperana de que eventualmente a combinao necessria de pesos seja encontrada.
Sem um procedimento factvel de treinamento estas redes de neurnios booleanos so apenas
curiosidades acadmicas.
2.9. Neurnios e Redes Neurais Artificiais
As redes neurais artificiais podem ser classificadas quanto :

Micro-Estrutura caractersticas de cada neurnio na rede
Meso-Estrutura organizao da rede
Macro-Estrutura associao de redes eventualmente com processamento analtico para abordar
problemas complexos.
Micro-Estrutura:
A micro-estrutura definida pelas caractersticas de cada neurnio na rede, em particular pela sua
funo de ativao.
Na Toolbox de Redes Neurais do MATLAB
todos os neurnios de uma camada devem ter a

mesma funo de ativao. Em outros ambientes de simulao de redes neurais no h esta restrio, como
p.ex. no NeuralWorks
.
Cada neurnio artificial possui um nmero n de entradas cuja soma ponderada pelos pesos w
i
passa
pela funo de ativao para gerar a sada do neurnio. Os pesos w
i
so variveis apenas na fase de
treinamento. Depois desta fase o neurnio passa a ser um funo no-linear de
n
.
w
1
p
1
b
p
2
p
n
w
2
w
n
+

Figura 28 O neurnio artificial.
Modelo Matemtico, para a funo de ativao sinal:
<
+
= = =
=
b u se
b u se
u f a p w u
n
i
i i
1
1
) ( ,
'
1

Uma entrada de polarizao freqentemente utilizada, permitindo uma soma ponderada das
entradas no nula quando a soma das entradas zero. O parmetro b, de deslocamento da funo de
ativao, torna-se assim desnecessrio.
<
+
= = =
=
0 1
0 1
) ( ,
'
1
u se
u se
u f a b p w u
n
i
i i

w
1
b 1
p
1
p
2
p
n
w
2
w
n
+

Figura 29 O neurnio artificial com entrada de polarizao.
2.10. Funes de ativao tpicas

Linear s s f = ) ( Hopfield
BSB
purelin
s
f s ( )

Sinal
<
+
=
0 1
0 1
) (
s se
s se
s f
Perceptron hardlims
s
-1
1
f s ( )

Degrau
<
+
=
0 0
0 1
) (
s se
s se
s f
Perceptron
BAM
hardlim
s
1
f s ( )

Hopfield/
BAM
=
<
> +
=
0
0 1
0 1
) (
s se inalterado
s se
s se
s f
Hopfield
BAM

s
-1
1
f s ( )

BSB ou
Limiar
Lgico
+ +
+ < <

=
K s se K
K s K se s
K s se K
s f ) (
BSB satlin
satlins
s
-K
K
f s ( )

Logstica
s
e
s f
+
=
1
1
) (
Perceptron
Hopfield
BAM, BSB
logsig
s
1
f s ( )

Tangente
Hiperblica
s
s
e
e
s s f
2
2
1
1
) tanh( ) (
= =
Perceptron
Hopfield
BAM, BSB
tansig
s
1
-1
f s ( )

2.11. Meso-Estrutura
Meso-Estrutura organizao da rede
# neurnios por camada
# camadas da rede
# tipo de conexo (forward, backward, lateral).

1-Feedforward Multicamadas
Perceptron Multicamadas (MLP)
2- Camada simples conectada lateralmente
BSB (auto-realimentao), Hopfield
3 Bicamadas Feedforward/Feedbackward

4 Rede Multicamadas Cooperativa/Comparativa

5 Rede Hbrida
Sub-
Rede 1
Sub-
Rede 2

2.12. Macro-Estrutura Neural

# de redes
tipo de conexo
tamanho das redes
grau de conectividade

Rede 1A
Rede 1A Rede 1A Rede 1A Rede 1A
Rede 1A

2.13. Aprendizado Supervisionado: A regra delta
Regra delta perceptron
Regra delta de Widrow-Hoff (LMS) ADALINE, MADALINE
Regra delta generalizada
Perceptron Rosenblatt, 1957

Dinmica:
<
+
= =
+ =
0 0
0 1
) (
j
j
j j
i
j ij ij j
s se
s se
s f y
b p w s

w
1 j
bj 1
p
1 j
s
j
y
j p
2 j
p
n j
w
2 j
w
n j
+

j j j
y d =
w
ij

w
ij
+
j
x
ij
Regra delta

- taxa (fator) de aprendizagem
j
= 0 o peso no alterado.

2.14. ADALINE e MADALINE Widrow & Hoff, 1960

Figura 30 ADALINE ADAptive LINear Element.

Figura 31 MADALINE Multiple ADAptive LINear Element.

Treinamento

+ = =
j ij ij j j j j
b p w d s d
+
2
k
ij j
ij ij
x
x
w w

Regra delta de Widrow-Hoff

LMS Least Mean Squared (Menor erro quadrtico mdio).

0.1 < <1 estabilidade e velocidade de convergncia.
Entradas bipolares 1 x
2
k
= n, independente do padro.

Funes no MatLab: NEWLIN, NEWLIND, SIM, ADAPT, LEARNWH

2.15. O Algoritmo LMS
Desenvolvido por Widrow & Hoff em 1960. Utilizado nas redes MADALINE.
Objetivo: Aprender a funo
n
f : das amostras (x
k
, d
k
)

{ x
k
}, {d
k
} e {e
k
} processos estocsticos estacionrios
e = d y erro estocstico atual

=
= =
n
i
t i i
w x y
1
xw neurnio linear
Valor esperado do erro quadrtico mdio

E[e
2
] = E[(d-y)
2
]
= E[(d-xw
t
)
2
]
= E[d
2
] 2E[dx]w
t
+ wE [x
t
x] w
t

assumindo-se para tanto w determinstico.
Define-se

E [x
t
x] R matriz de autocorrelao de entrada
E [dx] P vetor de correlao cruzada

Com esta notao tm-se:

E[e
2
] = E[d
2
] 2Pw
t
+ wRw
t

O vetor de pesos sinpticos timo w
*
pode ser obtido fazendo-se nulo o gradiente das derivadas
parciais em relao w:

0 = 2w
*
R 2P

w
*
= PR
-1
Soluo analtica da otimizao (solvelin.m)

Desenvolvimento de um algoritmo iterativo:

Conhecendo-se P e R, R
-1
existe, ento, para uma valor particular de w:

w
E[e
2
] = 2wR 2P

Ps-multiplicando por R
-1

w
E[e
2
] R
-1
= w 2P R
-1
= w w
*
E[ ] e
2
w
2
w
1
w
*
w
Assim, o vetor sinptico timo

w
*
= w
w
E[e
2
] R
-1

pode ser calculado em uma iterao.
Reescrevendo de forma iterativa e escalonando por um coeficiente de aprendizado c
k
:

w
k+1

= w
k
c
k

w
E[e
2
] R
-1
(c
k
= mtodo de Newton)

Hiptese LMS:
E[e
2
k+1
| e
2
0
, e
2
1
, ... e
2
k
] = e
2
k

e assumindo R = I algoritmo do gradiente descendente estimado:

w
k+1

= w
k
c
k

w
e
2
k

Gradiente de e
2
k
em relao a w

w
e
2
k
=
n
k k
w
e
w
e
2
1
2
, L
=

n
k k k k
w
y d
w
y d
2
1
2
) (
,
) (
L
=

n
k
k k
k
k k
w
y
y d
w
y
y d ) ( 2 , ) ( 2
1
L
=
n
k k
k
w
y
w
y
e L , 2
1

= [ ] ) ( , 2
1 t
k k k
n
k k k
y x x e w x = L
= 2 e
k
x
k

Assim o algoritmo LMS reduz-se a:

w
k+1

= w
k
+ 2c
k
e
k
x
k
assume-se c
k
> 0

Regra delta: w
ij

w
ij
+
ij
x
ij
Regra delta WH: w
ij

w
ij
+
2
k
ij
x
x

Esta frmula computacionalmente simples utiliza apenas valores conhecidos em cada iterao. O
operador linear R :
n

n
, com autovalores e
i
R =
i
e
i
representa a incerteza das amostras estocsticas
de
n
f : . Influi fortemente na convergncia do algoritmo. Na prtica

) (
1
0
R trao
< <
2.16. O Perceptron Multicamadas e o algoritmo backpropagation

Rumelhart, Hinton e Williams, 1986

) 0 (
1 1
x p =
) 1 (
1
x
1
) 2 (
1
y x =
2
) 2 (
2
y x =
) 1 (
2
x
) 1 (
3
x
) 0 (
2 2
x p =
) 0 (
3 3
x p =

Figura 32 Perceptron Multicamadas (MLP)

Dinmica: EP Elemento Processador (neurnio).

), (
) ( ) (
) 1 ( ) ( ) (
0
) (
k
j
k
j
i
k
i
k
ij
k
j
k
j
s f x
x w w s
=
+ =

com f contnua diferencivel.

Treinamento

=
=
m
j
j j
y d
1
2 2
) ( - erro quadrtico
) ,..., , (
) ( ) (
1
) ( ) ( k
mj
k
j
k
oj
k
j
w w w = w - vetor de pesos do EP j.

) ,..., , 1 (
) 1 ( ) 1 (
1
) 1 (
=
k
nj
k
j
k
j
x x x - vetor de entradas do EP j.

Gradiente instantneo:

=
) (
2
) (
1
2
) (
0
2
) (
2
) (
, ,
k
mj
k
j
k
j
k
j
k
j
w w w

L
w

) (
) (
) (
2
) (
2
) (
k
j
k
j
k
j
k
j
k
j
s
s w w
=

como
) 1 ( ) ( ) (
=
k
j
k
j
k
j
s x w
) 1 (
) (
) (
k
j
k
j
k
j
s
x
w

e portanto
) 1 (
) (
2
) (
2
) (
=
k
j
k
j
k
j
k
j
s
x
w

O erro derivativo quadrtico definido por
) (
2
) (
2
1
k
j
k
j
s
=

) 1 ( ) ( ) (
2

=
k
j
k
j
k
j
x
Para a camada de sada, o erro derivativo quadrtico :
) (
1
2 ) (
) (
1
2
) (
)) ( (
2
1
) (
2
1
k
j
N
i
k
i i
k
j
N
i
i i
k
j
s
s f d
s
y d
k k

=

= =

e como as derivadas parciais para i j se anulam
) ( ) (
)) ( (
)) ( (
)) ( (
2
1
) ( ) (
) (
) (
) (
) (
2 ) (
) ( k
j
k
j j
k
j
k
j j k
j j
k
j
k
j j k
j
s f x d
s
s f d
s f d
s
s f d
=

=
Erro na sada associado ao EP
j
da ltima camada:
j j
k
j j
k
j
y d x d = =
) ( ) (

implicando em ) ( .
) ( ) ( ) ( k
j
k
j
k
j
s f =

Desenvolvimento para uma camada oculta (k):
- O erro quadrtico da camada k determinado pelas sadas lineares da camada k+1.
) (
2
) (
2
1
k
j
k
j
s
=

Desenvolvimento para uma camada oculta (k):
- O erro quadrtico da camada k determinado pelas sadas lineares da camada k+1.

) (
2
) (
2
1
k
j
k
j
s
=

=
+
=
+
+
1
1
) (
) 1 (
) 1 (
2
2
1
k
N
i
k
i
k
i
k
i
s
s
s
(regra da cadeia)
=

+ +
=
+
+
=
+
+
1 1
1
) (
) 1 (
) 1 (
1
) (
) 1 (
) 1 (
2
2
1
k k
N
i
k
i
k
i k
i
N
i
k
i
k
i
k
i
s
s
s
s
s

lembrando que
+ =
k
N
i
k
i
k
ij
k
j
k
j
x w w s
1
) 1 ( ) ( ) (
0
) (
, tem-se
( )

+
= =
+ + +
=
1
1 1
) ( ) 1 ( ) 1 (
0
) (
) 1 ( ) (
k k
N
i
N
l
k
l
k
li
k
i
k
i
k
i
k
j
s f w w
s

( )

+
= =
+ +
=
1
1
) (
) (
1
) 1 ( ) 1 ( ) (
k k
N
i
k
l
k
i
N
l
k
li
k
i
k
j
s f
s
w
observando que
( ) ( ) ( )
) ( ) (
) (
) (
) (
que e se 0
k
j
k
j
k
j
k
l
k
j
s f s f
s
j l s f
s
=

temos
( ) ( )
+
=
+ +
=
1
1
) ( ) 1 ( ) 1 ( ) (
k
N
i
k
j
k
ji
k
i
k
j
s f w
( ) ( )
) (
1
) 1 ( ) 1 ( ) (
) (
1
k
j
N
i
k
ji
k
i
k
j
s f
k
j
w
k
+
=
+ +
4 4 4 3 4 4 4 2 1

Definindo-se
+
=
+ +
=
1
1
) 1 ( ) 1 ( ) (
k
N
i
k
ji
k
i
k
j
w
Tem-se o erro derivativo quadrtico como: ) ( .
) ( ) ( ) ( k
j
k
j
k
j
s f =

A atualizao dos pesos feita por

( ) ) ( ) ( ) 1 (
) ( ) ( ) (
n n n
k
j
k
j
k
j
W W W + = +
r

> 0 taxa de aprendizagem
n iterao corrente

) ( ) ( 2 ) ( ) 1 (
) 1 ( ) ( ) ( ) (
n n n n
k
j
k
j
k
j
k
j
+ = + X W W

O Algoritmo Backpropagation:

1 random w
k
ij

) (
, inicializar a rede
2 p/ (x,d), par de treinamento, obter y. Propagao feedforward.
=
=
m
j
j j
y d
1
2 2
) (
3 k camada ltima
4 para todo elemento j da camada k faa:
Calcule
) (k
j
empregando
j j
k
j j
k
j
y d x d = =
) ( ) (
se k for a ltima camada,
+
=
+ +
=
1
1
) 1 ( ) 1 ( ) (
k
N
i
k
ji
k
i
k
j
w se for uma camada oculta;

Calcule ) ( .
) ( ) ( ) ( k
j
k
j
k
j
s f =
5 1 k k se k>0 v para o passo 4, seno prossiga.
6 ) ( ) ( 2 ) ( ) 1 (
) 1 ( ) ( ) ( ) (
n n n n
k
j
k
j
k
j
k
j
+ = + X W W
7 para o prximo par de treinamento v para o passo 2.

O algoritmo Error Backpropagation levou a uma grande aceitao das RNAs por parte da
comunidade cientfica, uma vez que redes multicamadas podem ser treinadas a partir dos dados que
representam amostras significativas do processo em questo.

2.17. Consideraes prticas sobre o algoritmo Backpropagation
Nesta forma mostrada anteriormente algoritmo Error Backpropagation em geral muito lento e
suscetvel a patologias de treinamento. A paralisia da rede ocorre em regies de gradiente prximos de
zero (plats). Dependendo das condies iniciais o treinamento fica preso em mnimos locais da superfcie
de erro.
O critrio de parada do treinamento considera em geral um limite mximo do nmero de pocas de
treinamento. Alm disso o treinamento pode terminar quando a soma do erro quadrtico ou a mdia deste
atinge o seu objetivo.
Para acelerar a convergncia utilizam-se variantes do Backpropagation. A funo trainbpm (com
momento, m
C
) considera no apenas o gradiente local, mas tambm tendncias recentes da superfcie de
erro. Atua como um filtro passa-baixas, ignorando caractersticas menores da superfcie de erro. O
treinamento desliza sobre mnimos locais no muito pronunciados.

) ( ) ( 2 ) 1 ( ) ( ) 1 (
) 1 ( ) ( ) ( ) (
n n m n m n
k
j
k
j C
k
j C
k
j
+ = + X W W m
C
0,95 (tpico)

A funo trainbpx implementa uma taxa de aprendizagem adaptativa (e com momento, m
C
)

Taxa de aprendizagem: 1,04
anterior erro
novo erro
reduo de : 0,7 aumento de : 1,05
O algoritmo de Levenberg-Marquardt um dos mais rpidos; utiliza a Matriz J Jacobiana das
derivadas do erro (e) em relao aos pesos.

e J J J J
T T k
j
1 ) (
) (

+ = W

Se o fator de escala muito grande temos o algoritmo do gradiente descendente. Se muito
pequeno torna-se o algorimto de Gauss-Newton, que mais preciso e assim adequado para uma rpida
convergncia prxima a um mnimo.
2.18. Redes Neurais Recorrentes - A Rede de Hopfield
A rede neural de Hopfield possui uma nica camada de neurnios realimentados e implementa assim
uma memria auto-associativa, isto , ao ser apresentado um padro de n bits a rede retorna um padro
armazenado de n bits que lhe mais prximo (associado). Pela facilidade de treinamento e velocidade de
operao a rede deHopfield tem sido escolhida para implementaes em VLSI.

Sistemas realimentados precisam ser projetados com cuidado pois uma escolha inadequada dos
pesos pode levar o sistema a apresentar comportamento instvel. A escolha dos pesos da rede de Hopfield
garante a sua estabilidade. A estrutura desta rede mostrada na figura a seguir.

E.P.1
E.P.2
E.P.n
y
2
(k)
y
1
(k)
y
n
(k)
w
12
w
n2
w
2n
w
1n
w
21
w
n1

Figura 33 Rede de Hopfield com n Elementos Processadores.

Dinmica:
( )
) ( ) 1 (
1
) ( ) (
k
j
k
j
n
i
k
i ij
k
j
s f y
y w s
=
=
+
=

Inicializao da rede: x y =
) 0 (

Vetor de sada: [ ]
) ( ) ( k
i
k
y = y

Para Sistemas Binrios utiliza-se:
=
<
>
=
j j
j j
j j
j
L s se anterior valor mantem
L s se
L s se
s f
,
0
1
) (

Desta forma a rede de Hopfield pode ser vista como um sistema IIR (Infinite Impulse Response)
com entrada nula, uma vez que pode ser descrita por um conjunto de equaes a diferenas.

Formas de operao:

Assncrona
Sncrona
Seqncial
Define se o estado da rede como o conjunto de todas as sadas correntes.

Exemplo:

111
100
010
001 000

Figura 34 Rede de Hopfield com 3 E.P. 8 estados possveis.

Aprendizagem:
Os padres a serem armazenados na memria associativa so escolhidos priori.
Cada padro p: [ ] 1 ou 0 com ,
2 1
= =
p
i
p
n
p p
p
a a a a A K
m padres distintos, L
i
= 0.

=
=
m
p
p
j
p
i ij
a a w
1
) 1 2 )( 1 2 (

A expresso ) 1 2 (
p
i
a converte 0 e 1 para 1 e +1.
w
ij
incrementado de 1 se
p
j
p
i
a a = , e decrementado de 1 caso contrrio.
Este procedimento repetido para todos i, j e para todos os padres A
p
.
Adicionar padres memria um processo anlogo ao reforo no ensino.

Exemplo:

Smbolo Vetor de Treinamento
L A
1
= [1 0 0 1 0 0 1 1 1]
T A
2
= [1 1 1 0 1 0 0 1 0]
+ A
3
= [0 1 0 1 1 1 0 1 0]

a
1
a
2
a
3
1 1 1 1 1
a
4
a
5
a
6
1 1 1 1 1
a
7
a
8
a
9
1 1 1 1 1

Matriz de pesos aps treinamento:

=
0 1 3 1 3 1 1 3 1
1 0 1 1 1 1 1 1 1
3 1 0 1 3 1 1 3 1
1 1 1 0 1 1 1 1 3
3 1 3 1 0 1 1 3 1
1 1 1 1 1 0 3 1 1
1 1 1 1 1 3 0 1 1
3 1 3 1 3 1 1 0 1
1 1 1 3 1 1 1 1 0
W
Consideremos agora o seguinte padro apresentado rede:

1 1
1
1 1

Teremos a seguinte evoluo da rede, considerando a operao seqencial.

EP disparado Soma do EP Sada do EP Novo vetor de sada
1 2 1 1 0 1 1 0 0 0 1 1
2 -3 0 1 0 1 1 0 0 0 1 1
3 -4 0 1 0 0 1 0 0 0 1 1
4 1 1 1 0 0 1 0 0 0 1 1
5 -4 0 1 0 0 1 0 0 0 1 1
6 -4 0 1 0 0 1 0 0 0 1 1
7 4 1 1 0 0 1 0 0 1 1 1
8 0 1 1 0 0 1 0 0 1 1 1
9 4 1 1 0 0 1 0 0 1 1 1
1 2 1 1 0 0 1 0 0 1 1 1
2 -8 0 1 0 0 1 0 0 1 1 1

Assim, aps a convergncia, a rede retorna o smbolo L, como aquele que est mais prximo ao
padro de entrada.

A figura a seguir ilustra o funcionamento da rede de Hopfield em termos de energia da rede.

E - Energia da rede
Padres armazenados
Padro esprio
Valor Inicial
Padro recuperado
Estados

Figura 35 Padres e a funo de energia tpica de uma rede de Hopfield.

Os padres armazenados na Rede de Hopfield so mnimos locais da funo de energia (estados de
equilbrio). A partir de um padro apresentado (valor inicial) a rede estabiliza no mnimo de energia de sua
respectiva bacia de atrao. Isto , no se retorna necessariamente o padro geometricamente mais
prximo. Alm disso pode acontecer de que haja mnimos locais no desejados, levando a rede a retornar
padres esprios.


Estabilidade da rede de Hopfield:

A estabilidade da rede de Hopfield determinada pela matriz W = [w
ij
].

Cohen e Grossberg mostraram em 1983 que se W simtrica e sua diagonal principal nula, ento
a rede recorrente estvel. Esta uma condio suficiente, mas no necessria para a estabilidade.

Prova:
Considere a seguinte funo de Liapunov associada energia de todos os estados:

+ =
i j
j j
j
j j
j
j i ij
L y y x y y w E
2
1

Onde E a energia (artificial) associada ao estado da rede.
A variao da energia devido variao do estado de um neurnio k dada por:

k k k k
k j
j k kj
k i
k i ik k
L y y x y y w y y w E + =

2
1
2
1

pela condio de simetria
k k k k
k i
k i ij k
L y y x y y w E + =

e agrupando
k k k
k i
i ij k
y L x y w E
+ =

De acordo com a dinmica de Hopfield, tm-se
[ ]
k k k k
y L s E =

As seguintes situaes so possveis:

1. se s
k
> L
k
ento y
k
= 1 y
k
= 1 E
k
< 0
2. se s
k
< L
k
ento y
k
= 0 y
k
= -1 E
k
< 0
3. se s
k
= L
k
ento y
k
inalterado y
k
= 0 E
k
= 0

Portanto a Energia s decresce at que o sistema se estabiliza em um ponto de equilbrio.

Limitaes:
1- No retornado necessariamente o padro mais prximo.
2- Diferenas entre padres. Nem todos os padres tm igual nfase.
3- Padres esprios, i., padres evocados que no constam do rol de padres originais.
4- Nmero mximo de padres limitado. n n m log / 5 , 0 seno esquecimento.

Concluso:

A rede de Hopfield mais de interesse acadmico, pois mostra uma forma de tratar redes neurais
recorrentes.
2.19. Redes Neurais de Base Radial
As duas grandes aplicaes de RNAs so como classificadores de padres e como aproximadores de
funes. As redes neurais de base radial (RBFs) so uma alternativa interessante para o segundo caso, e se
destacam pela rapidez de aprendizado.
Os trabalhos originais nesta rea foram feitos por Moody & Darken, 1989, Che et al, 1991 e Girosi,
1992.
As redes RBF tiveram sua origem na observao de sistemas biolgicos:
O processamento de informaes sensoriais feito por campos sobrepostos de recepo
presentes em regies do crtex cerebral.
Observa-se uma atividade local de seus elementos processadores.

Neurnio (microestrutura)

Em geral, em relao s RBFs:
Treinamento rpido, porm necessita mais neurnios que o MLP.
Permite treinamento incremental. Novos pontos podem ser aprendidos sem perder aprendizado
anterior.
Permite utilizar conhecimento priori, para localizar neurnios (o que no possvel no MLP).

Varincia Mdia
Gaussiana e a
i
i i
x
i
,
2
=

b w p
i
i i
e a

=

) * ) , ( ( b p w dist radbas a =

-3 -2 -1 0 1 2 3
0
0.2
0.4
0.6
0.8
1
X: -0.83
Y: 0.5021
w-p
a

Figura 36 Neurnio RBF Funo de Base Radial.

-3 -2 -1 0 1 2 3
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Weighted Sum of Radial Basis Transfer Functions
Input p
O
u
t
p
u
t

a
Meso-Estrutura

1
w p
1
w p
1
w p
p
a

Figura 37 Rede Neural com Funo de Base Radial Camada gaussiana e camada linear.
Treinamento de Redes de Funes de Base Radial
Projeto Exato 1 neurnio para cada par entrada sada
erro nulo para os dados de treinamento!
net = newrbe(P,T,SPREAD)

P - RxQ matriz dos Q vetores de entrada (pattern),
T - SxQ matriz dos Q vetores objetivo (target).
SPREAD espalhamento da funo de base radial, default = 1,0 (vale para todos os neurnios).
Em SPREAD a gaussiana responde 0,5

-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
X: -4
Y: 0.5021
radbas(i*0.83/4), SPREAD=4

Figura 38 Funo de Base Radial com fator de espalhamento 4.

Treinamento:
1- W
1i
= p
i

2- b
i
= 0,83/SPREAD
3- Para a camada Purelin S
2
: Solvelin
0 min
2
=

erro

Q restries (pares entrada/sada)
Cada neurnio possui Q+1 variveis (Q pesos e um bias) infinitas solues
Solvelin soluo de norma mnima

+
j i
i
b w
2 2

Projeto Incremental Acrescentam-se neurnios individualmente at que o erro
especificado seja satisfeito. A posio onde inserido o neurnio escolhida de
forma a minimizar o erro ( ) min
2
erro naquele passo.

[net,tr] = newrb(P,T,GOAL,SPREAD,MN,DF)

P - RxQ matriz dos Q vetores de entrada (pattern),
T - SxQ matriz dos Q vetores objetivo (target),
GOAL - erro mdio quadrtico pretendido, default = 0,0,
SPREAD espalhamento da funo de base radial, default = 1,0,
MN - Nmero mximo de neurnios, default Q,
DF - Nmero de neurnios adicionados entre apresentaes na tela, default = 25.

Casos Patolgicos:
Fator de espalhamento muito pequeno leva perda da capacidade de
generalizao.
-20 0 20 40 60 80 100 120
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6

Figura 39 Aproximao de funes RBF com fator de espalhamento muito pequeno.

Fator de espalhamento muito grande no permite aproximar os detalhes da
funo.
-20 0 20 40 60 80 100 120
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6

Figura 40 Aproximao de funes RBF com fator de espalhamento muito grande.

Heurstica para a escolha do fator de espalhamento:
min max 1
x x SPREAD x x
i i
< <
+

-20 0 20 40 60 80 100 120
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
Pattern
T
a
r
g
e
t

26 Amostras da Funo
Funo
Aprox. RBF - 20 neurnios

Figura 41 Aproximao de funes RBF com fator de espalhamento adequado.

O treinamento de uma rede RBF no timo pois os neurnios so acrescidos sem
que seja possvel alterar a posio dos neurnios anteriores. O treinamento incremental
mais simples e rpido, embora possa haver, teoricamente, uma rede melhor para uma
otimizao global.

Concluses

- Treinamento rpido, porm utiliza mais neurnios que o MLP.
- Treinamento incremental, novos pontos podem ser aprendidos sem perder o
aprendizado anterior.
- Pode-se utilizar conhecimento a priori, para localizar os neurnios (o que no
possvel em uma MLP).

2.20 Aprendizagem Competitiva
Redes Auto-Organizadas Classificao de Padres No-Supervisionada
a = compet(-dist(W,p)+b) { 1 p/ o neurnio vencedor
0 p/ os demais
net = newc(PR,S,KLR,CLR)
PR - Rx2 matrix of min and max values for R input elements.
S - Number of neurons.
KLR - Kohonen learning rate, default = 0.01.
CLR - Conscience learning rate, default = 0.001.

net = train(net,P);
Y = sim(net,P)
Yc = vec2ind(Y)

Figura 42 - Padro a ser classificado.

Figura 43 Resultado da classificao.

Wc( t + 1 ) = Wc(t) + (t) [X(t) Wc(t)]
c neurnio vencedor
2.21 Quantizao Vetorial por Aprendizagem - LVQ - Learning Vector Quantization
Kohonen 1989

Rede de uma camada ativa, treinamento supervisionado.
Objetivo: distribuir vetores de cdigo (codebook-vectors) sobre o espao de entrada de maneira a abrang-
lo da melhor forma possvel.

Operao: Um novo vetor de entrada comparado com os vetores de cdigo e aquele que lhe mais
semelhante indica a classe deste vetor de entrada.

O vetor de cdigo definido pelos pesos W
j
=(w
1j
,..., w
nj
)

Existem 3 variantes principais da rede neural LVQ.

LVQ1

Compara-se o vetor de entrada X com os vetores de cdigo Wj. O neurnio c, cujo vetor de cdigo Wc
mais semelhante a X dito o neurnio vencedor. A semelhana medida por uma norma; em geral utiliza-
se a minimizao da norma L
2
euclidiana da diferena:

||X Wc || = min
j
(||X - W
j
||)

Obs: X-Wj ->min ; <X|Wj> -> Max
Este algoritmo uma variante do Classificador do Vizinho mais Prximo, porm no se armazenam todos
os padres; h um procedimento de treinamento de Wj.

Algoritmo de Treinamento
Ajuste de Wj para minimizar o erro de classificao.
O vetor de cdigo Wc do neurnio vencedor, que mais semelhante ao vetor de entrada X feito mais
semelhante a X caso c pertena mesma classe de X; caso contrrio menos semelhante. Os demais
neurnios permanecem inalterados.

Wc(t+1) = Wc(t) + (t)[X(t)-Wc(t)] se classe (Wc) = classe (X)
= Wc(t) - (t)[X(t)-Wc(t)] se classe (Wc) classe (X)

Wj(t+1) = Wj(t) para todo j c

0 < (t) < 1, taxa de aprendizagem, usualmente (0) = 0,1 e decai linearmente.
Figura 44 Visualizao to treinamento LVQ1

LVQ2.1

Classificao das entradas como LVQ1
Algoritmo de Treinamento
Busca-se o vetor mais prximo Wi e o segundo mais prximo Wj. Uma adaptao ocorre
sse:
1. Classe(Wi) Classe(Wj)
2. X pertence classe (Wi) ou classe (Wj)
3. X est contido na janela entre Wi e Wj, s
di
dj
dj
di
>
, min
di = dist(X,Wi); dj = dist(X,Wj);
v
v
s
+
=
1
1
v-largura relativa da janela. Kohonen recomenda 3 . 0 2 . 0 v . Para v=0,2 s=2/3

Figura 45 Janela de treinamento para s=1&Visualizao to treinamento LVQ1

Figura 46 Visualizao to treinamento LVQ2.1

Wi(t+1) = Wi(t) + (t)[X(t)-Wi(t)]
Wj(t+1) = Wj(t) - (t)[X(t)-Wj(t)]

Este algoritmo modifica a fronteira entre as classes, pelo deslocamento dos vetores de cdigo, mas no
garante que a distribuio de vetores corresponda distribuio de probabilidade de entrada.

LVQ3
Modificao do LVQ2.1 em que tambm ocorre adaptao quando Wi e Wj pertencem
ambos classe(X).

Wi(t+1) = Wi(t) + (t)[X(t)-Wi(t)]
Wj(t+1) = Wj(t) - (t)[X(t)-Wj(t)]

Classe (Wi) = classe (X); classe(Wj) classe(X); X dentro da janela.

Wi(t+1) = Wi(t) + e(t)[X(t)-Wi(t)]
Wj(t+1) = Wj(t) + e(t)[X(t)-Wj(t)]

Classe (X)= classe (Wi) = classe(Wj) Kohonen recomenda 0,1 e 0,5.

A estabilidade de LVQ3 melhor que LVQ 2.1.
LVQ1 e LVQ3 ajustam a posio dos vetores de cdigo distribuio dos vetores de entrada.

LVQ2.1 define a fronteira entre as classes. recomendado para acentuar a separao de classes treinadas
por LVQ1 ou LVQ3.

OLVQ Optimized Learning Vector Quantization

Wc(t+1) = Wc(t) +
c
(t)[X(t)-Wc(t)] Classe (Wc) = classe (X);
Wc(t+1) = Wc(t) -
c
(t)[X(t)-Wj(t)] Classe (Wc) classe (X);

Wj(t+1) = Wj(t) para todo j c
Taxa de aprendizagem
j
(t) individualizada.

Concluses sobre LVQ

Preciso do classificador depende de:
# de vetores de cdigo por classe
- inicializao
- treinamento, algoritmo
- taxa de aprendizagem
- critrio de parada

A inicializap pode ser feita com os vetores de entrada, isto evita dead neurons, neurnios que nunca
so vencedores.

Kohonen recomenda comear o treinamento com OLVQ, e 30 a 50 vezes a quantidade de vetores de
cdigo.

2.22 Mapas Auto-Organizados (SOM)
As redes SOM (Self-Organizing Maps), tambm conhecidas como mapas de Kohonen, foram
desenvolvidas em diversos trabalhos por Teuvo Kohonen, em 1982, 84, 89, 90 e 92. So uma evoluo das
LVQs, incluindo relaes de vizinhana entre os nernios.

Princpios:
- Rede Neural de uma camada ativa.
- Treinamento no supervisionado.

A adaptao dos vetores de cdigo Wj, 0 j m, deve refletir a funo de distribuio de
probabilidade do espao de entrada Xp, 0 p n, considerando relaes de vizinhana.
Por questes de visualizao utilizam-se principalmente cadeias unidimensionais e grades bi- ou
tridimensionais. Outras so possveis.
A grade elstica faz com que alteraes em um neurnio tambm afetem os seus vizinhos.
Quanto maior a distncia do ponto alterado, menor sua influncia.
Conservao topolgica no mapeamento dos vetores de entrada em
n
sobre a grade de
neurnios m-dimensional.

Aplicaes:
Buscar e visualizar relaes de similaridade no espao de entrada. O mapeamento calculado
iterativamente atravs de um algoritmo de treinamento.

Algoritmo de Treinamento:
Compara-se o vetor de entrada X = (X
1
, X
2
, ...X
n
) paralelamente com todos os vetores de cdigo
Wj = (W
1
j,...Wnj). Em geral utiliza-se a mtrica euclidiana:

||X Wc|| = min
j
(||X Wj||)

Wc o neurnio vencedor, o que est mais prximo de X.
Em caso de vetores normalizados pode-se tambm utilizar o produto escalar:

<X|Wj> = XiWij = net
j

onde o neurnio vencedor o que apresenta o maior produto escalar.

Lei de Aprendizagem

Wj( t + 1) = Wj(t) + (t)hcj(t)[X(t) Wj(t)]

hcj(t) funo distncia sobre a grade de neurnios (neighborhood kernel)
(t) - taxa de aprendizagem variante com o tempo 0 < (t) < 1

hcj(t) = h(||rc rj||, t) = h(z, t) = h(z, d)

rc, rj - vetores posio dos neurnios c e j na grade.
Quanto maior a distncia do neurnio vencedor z = ||rc rj|| hcj(t) 0.
Uma alternativa variao com t utilizar a distncia d, com d 0 para t em h(z,d).

Utilizando-se as relaes de vizinhana parametrizadas em d, podem ser utilizadas as seguintes
relaes prticas em funo de z = ||rc rj||

hgauss1(z,d) =
2
) / ( d z
e

hcil(z,d) =
<
ao
d z se
sen 0
1

hcone(z,d) =
<
ao sen 0
/ 1 d z se d z

hcos(z,d) =
< ]
`
|
'
|
senao 0
2
cos d z se
d
z

Figura 47 Funes de vizinhana utilizadas no mapa de Kohonen.

hgauss1(z,d)

hcone(z,d)

hcil(z,d)

hcos(z,d)
Caso Unidimensional

0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
W(i,1)
W
(
i
,
2
)
Weight Vectors

Figura 48 Distribuio de entrada e mapa de Kohonen unidimensional resultante.

Caso Bidimensional
-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
-0.6 -0.4 -0.2 0 0.2 0.4 0.6
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
W(i,1)
W
(
i
,
2
)
Weight Vectors

Figura 49 Distribuio de entrada e mapa de Kohonen bidimensionl resultante.


Figura 50 Evoluo de um mapa de Kohonen (10 20 30 40), (50 60 70 80), (90 100 200 300),
(400 500 600 700) e (800 1000 2000 3000) pocas (Software KNet [Bayer91]).


Figura 51 Mapa auto-organizvel com defeito topolgico (papel-de-balinha), [Bayer91].

Figura 52 Espao de entrada com distribuio triangular aplicado a mapa quadrado. A distribuio da
entrada uniforme sobre o tringulo, [Bayer91].

Consideraes prticas para a utilizao de SOMs

Estrutura da grade quadrado mais fcil de implementar que o hexgono proposto por
Kohonen.
Forma do mapa Kohonen recomenda um retngulo em vez do quadrado para haver menos
simetrias na orientao o mapa. Limite mapa redondo!!
Alguns autores propem criao e eliminao de neurnios.
Apresentao de padres tipicamente 10
4
10
6
passos. Apresentao cclica ou com
permutaes aleatrias dos vetores de entrada. Prtica: cclica.
Reforo de casos raros importantes replicar casos em vez de alterar (t).
Escalonamento dos vetores de entrada no necessrio, mas recomendado por alguns
autores.

2.23. Caractersticas tpicas de Redes Neurais Artificiais
Concluindo esta seo destacam-se a seguir as principais caractersticas das redes neurais artificiais
(RNAs).

Caractersticas Positivas
Capacidade de Aprendizado:
RNA no so programadas, mas treinadas com padres de treinamento. Podem ser
adaptadas atravs das entradas.
Paralelismo:
RNA so massivamente paralelas e so portanto muito bem adequadas para uma
simulao/implementao em computao paralela.
Representao distribuda do conhecimento:
O conhecimento armazenado de forma distribuda em seus pesos. O que aumenta
muito a tolerncia do sistema a falhas de neurnios individuais; permite o
processamento paralelo.
Tolerncia falhas:
O sistema pode ser mais tolerante a falhas de neurnios individuais que algoritmos
convencionais. A rede deve, no entanto, ser treinada para apresentar esta caracterstica.
Nem toda rede automaticamente tolerante a falhas.
Armazenamento associativo da informao:
Para um certo padro de entrada a RNA fornece o padro que lhe mais prximo. O
acesso no feito por endereamento.
Robustez contra perturbaes ou dados ruidosos:
Quando treinadas para tanto as redes neurais so mais robustas a padres incompletos
(ruidosos)

Caractersticas Negativas
Aquisio de conhecimento s possvel atravs de aprendizado:
Principalmente devido representao distribuda muito difcil (exceo: rede de
Hopfield para problemas de otimizao) introduzir conhecimento prvio em uma
RNA. Isto muito comum em sistemas de IA simblicos.
No possvel a introspeco:
No possvel analisar o conhecimento ou percorrer o procedimento para a soluo,
como possvel com os componentes de explicao de sistemas especialistas.
Difcil deduo lgica (seqencial):
virtualmente impossvel obter-se cadeias de inferncia lgica com redes neurais.
Aprendizado lento:
Principalmente redes completamente conectadas e quase todas as variantes dos
algoritmos backpropagation so muito lentas.

3. Lgica Fuzzy
Obs: Em portugus: Lgica Difusa, Nebulosa.

A teoria dos conjuntos fuzzy foi proposta por Lotfi Zadeh em 1965. Por muito tempo permaneceu
incompreendida. Em meados dos anos 80 Mamdani a utilizou para projetar controladores fuzzy. A partir
da houve um grande progresso da rea, em especial com muitas aplicaes reportadas do Japo.

Emular Fisiologia
Redes Neurais Artificiais

Crebro humano

Emular Psicologia
Lgica Fuzzy

A lgica fuzzy permite criar sistemas especialistas utilizando variveis lingusticas para criar uma
base de regras. Expresses lingusticas so tpicas da natureza humana de tomar decises. Por exemplo: "Se
estiver quente vou ligar o ar condicinado no mximo. Quente e mximo no significam um valor particular
de temperatura e potncia, mas podem assumir uma faixa considervel de valores. Pessoas diferentes
tambm podem ter diferentes acepes para o mesmo conceito lingustico.

De acordo com a disponibilidade de um especialista ou de amostras de um sistema o paradigma
Fuzzy ou RNA mais indicado.

Descrio Parcial (Incompleta) do Sistema

Especialista Adaptao, Amostras

Fuzzy Redes Neurais Artificiais

Sistemas fuzzy so sistemas baseados em conhecimento (sistemas especialistas). Um expert humano
cria a base de conhecimento na forma de um banco de regras. Um usurio humano consulta o sistema
especialista apresentado fatos base de fatos. Conforme ilustrado na figura a seguir.

Base de conhecimento Base de fatos

Mquina de
Inferncia Usurio

Figura 53 Sistema especialista.
R1: Se A e B ento C
R2: Se D e E ento F
...
A
B
D
...

A mquina de inferncia deduz informaes novas ao comparar fatos com as premissas das regras.

A fato: x A,
AB regra: se x A ento y B
___________________________
B conseqncia: y B

fato: Os tomates esto vermelhos
regra: Se os tomates esto vermelhos ento esto maduros
__________________________________________
conseqncia: Os tomates esto maduros

Exemplos de sistemas em que se utiliza lgica fuzzy:

- Estao de Tratamento de gua Nbg
- Guiagem Automtica BMW
- Ar condicionado
- Mquina Fotogrfica-Autofoco
- Mquina de lavar
- Aspirador de p
- Japo grande quantidade de patentes
- Controle Inteligente

Em aplicaes na engenharia trabalha-se com nmeros (temperatura, presso, fora etc), i.., as
variveis so contnuas. Por outro lado a inferncia fuzzy utiliza variveis lingusticas. Para que um sistema
fuzzy possa ser utilizado em engenharia faz-se necessrio converter nmeros (valores exatos) em variveis
lingsticas e vice-versa.

Valores Fuzzy- Valores
Exatos ficao Exatos

Um controlador realimentado baseado em lgica fuzzy (Controlador Inteligente) teria a seguinte
estrutura, onde F. I. D. significam Fuzzyficao, Inferncia e Defuzzyficao.

O

Um sistema fuzzy permite implementar controladores no-lineares, em que as regras de
funcionamento so obtidas de especialistas.

Fuzzy-
ficao
Banco de Regras
Inferncia
Defuzzy
ficao

F. I. D. Sistema
3.1. Lgica Fuzzy - Perspectiva histrica
Alguns pesquisadores contribuiram significativamente para a evoluo da lgica booleana (0s e 1s,
binria) para a lgica multivalorada.

~ 1930, Lukasiewicz : {0,1/2,1}, [0,1]

1937, Black : Funo de Pertinncia

1965, Lotfi Zadeh : Fuzzy Sets
Teoria dos Conjuntos Multivalentes

~ 1988, Produtos Comerciais : terceira onda de interesse

3.2. Funo de Pertinncia
Na lgica clssica utiliza-se a funo indicadora bivalente I
A
(x) =
A x se 0
A x se 1

Uma funo indicadora multivalente leva ao conceito de funo de pertinncia.

A
: x [0,1]

Permite operar com conjuntos fuzzy, com os seguintes operadores pontuais:

I
A B
(x) = min ( I
A
(x) , I
B
(x) )

I
A B
(x) = max (I
A
(x) , I
B
(x) )

I
A
c (x) = 1 - I
A
(x)

A B sse I
A
(x) I
B
(x) x X

m

A(x) mede o grau de pertinncia de x ao conjunto A
I
A
(x) assertivas em clculo bivalente
m
A
(x) assertivas em lgica multivalente (contnua)

Conjuntos Fuzzy como pontos em cubos

Os vrtices de um quadrado podem ser considerados como valores booleanos. Todos os demais
pontos no interior e nas arestas do quadrado so valores vlidos em lgica fuzzy.

{x
2
} = (0 1) X = (1,1)

=( 0 0 ) {x
1
} = (1 0)

X = { x
1
x
2
} Subconjuntos no-fuzzy : { (0 0) ; (0 1) ; (1 0) ; (1,1)}
3.3. Lgica Fuzzy como generalizao da lgica binria

Lgica binria : A ou no-A (A)
Lei da no contradio : no (A e no-A)

Lgica Fuzzy : graus de indeterminao
Graus de ocorrncia de eventos ou relaes

O Princpio da Incerteza de Heisenberg (Mecnica Quntica) estabeleceu limites preciso com a
qual podemos observar fenmenos fsicos. A lgica fuzzy generaliza a lgica binria formalizando a
impreciso caracterstica do raciocnio humano.
3.4. Mquina de Inferncia

A mquina de inferncia fuzzy segue os seguintes passos para obter o resultado da inferncia para
um conjunto de fatos:

i) fatos com premissas (antecedentes)
ii) grau de compatibilidade de cada regra
iii) crena em cada regra
iv) agregao

Para a agregao quatro mtodos se tornaram populares:

a) Mtodo clssico de Mamdani
b) Mtodo clssico de Larsen
c) Mtodo clssico de Tsukamoto
d) Mtodo clssico de Takagi-Sugeno
3.5. Um primeiro exemplo de controle fuzzy
Considere um sistema de ar condicionado para um ambiente de escritrio. Deseja-se levar em conta
a temperatura e a humidade relativa do ar para acionar o aparelho com economia de energia e conforto. So
criadas funes de pertinncia para cada varivel envolvida.

Figura 54 Funes de pertinncia utilizadas para um controle de temperatura.

O seguinte conjunto de regras poderia ser utilizado para o controle fuzzy.

Banco de regras

Se T Frio e U Seco ento P Baixa
Se T Quente e U mido ento P Alta
Se T Morno e U Mdio ento P Alta
Se T Quente e U Seco ento P Mdia
......

A Inferncia o processo de se obter a sada fuzzy a partir dos valores lingusticos. preciso
transformar o valor T=28 C em uma varivel fuzzy (fuzzyficao). O mesmo se d para a umidade. De
acordo com a combinao das regras de so ativadas obtm se o valor de sada.
30% 50% 70%
1
10 20 30
(Universo de Discurso)
Frio Morno Quente
Mdio Seco mido
1
30% 50% 80% Potncia
Baixa
Mdia
Alta
Conjunto Fuzzy
Partio do Universo de discurso
Umidade
T
Centride
T= 28 35%
0
0,8
0,7
0,3
0
0,7
65% 1 Potncia
1
0,7
0,3
"Defuzzificao"
das reas
+
Figura 55 Inferncia fuzzy. A temperatura 28 C e umidade relativa 35%
levam pelas avaliao das regras a uma potncia de 65% do ar condicionado.
3.6. Paradoxos bivalentes e mdia fuzzy
A lgica fuzzy trata de forma natural os paradoxos, que em lgica clssica no podem ser
resolvidos. Alguns exemplos de paradoxos:

O mentiroso de Creta est mentindo quando afirma que:
Todas as pessoas de Creta mentem?
Se ele mente, est dizendo a verdade?

O barbeiro de Russel
Fao a barba de todos os homens que no se barbeiam .

Poltico
No acreditem no que digo .

Tabela verdade bivalente para o paradoxo

t() = 1 t(S)
t(S) = 1 t(S)

Se S = true; se t(S) = 1 1 = 0
se t(S) = 0 0 = 1

Interpretao Fuzzy / Multivalente

2 t(s) = 1 t(s) =

O paradoxo se reduz a meia-verdade em lgica fuzzy. Geometricamente ele ocupa o ponto central do
hipercubo unidimensional
Figura 56 Representao do paradoxo como o ponto de mxima entropia no quadrado.

0 1
1
0
Mxima entropia
x2
x1
Seco
Quente
1
3.7. Caracterizao de Conjuntos Nebulosos
Os conjuntos fuzzy podem ser caracterizados por alguns parmetros.
Figura 57 Caracterizao de conjuntos fuzzy.

A
c
(x) = 1 - A (x)
A B
(X) = min ( A (x), B (x) )
A B
(X) = max ( A (x), B (x) )
C
Figura 58 - Complemento, Interseo e Unio de conjuntos fuzzy.
3.8. Propriedades
Os operadores min e max, complemento, unio e interseo satisfazem as seguintes propriedades,
como na teoria clssica:

Involuo (A
C
)
C
= A
Comutatividade AB = B A AB = BA
Associatividade A(BC) = (AB) C A(BC) = (AB) C
Distributividade A(BC) = (AB) (AC) A(BC) = (AB) (AC)
Idempotncia AA = A AA = A
Absoro A(AB) = A A(AB) = A
Identidade A = A A = A
Absoro por e A = A =
Lei de De Morgan (AB)
C
= A
C
B
C
(AB)
C
= A
C
B
C

Porm:
AA
C
No satisfaz lei da no-contradio
AA
C
No satisfaz lei do terceiro excludo
A(A
C
B) AB No satisfaz absoro do complemento
A (A
C
B) AB No satisfaz absoro do complemento
Al(A)
Nu (A)
A0,5
Su (A)
U
mA
mA
trianf gbellml
mA
A
x
corte x
Ncleo
Suporte
Altura

3.9. Operadores principais da interseo, unio e complemento

As seguintes Normas Triangulares so mais utilizadas para implementar a interseo, unio e
complemento de conjuntos fuzzy. Dependendo da aplicao uma pode ser mais interessante que as outras.

t-norma t-conorma Negao Nome
min (a,b) max (a,b) 1 a Zadeh
a . b a + b ab 1 a probabilista
max (a + b 1, 0) min (a + b, 1) 1 a Lukasiewicz
a, se b = 1 a, se b = 0 1 a Weber
b, se a = 1 b, se a = 0 1 a Weber
0 1 seno 1 a Weber

Na figura a seguir ilustra-se a utilizao da Interseo e da Unio por estes quatro mtodos.

Figura 59 Ilustrao das principais t-normas e t-conormas

3.10. Clculo Sentencial em Lgica Fuzzy

Na lgica clssica, os valores verdade das proposies (clculo sentencial) so obtidos pelas
seguinte tabela verdade (modus ponens modo afirmativo).

A B A A B A B A B
0 0 1 0 0 1
0 1 1 0 1 1
1 0 0 0 1 0
1 1 0 1 1 1

a) Zadeh
b) Probabilista
0,6
0,36
c) Lukasienviez
0,6
0,2
d) Weber
a) Zadeh
0,6
b) Probabilista
0,4
0,64
0,4
0,8
0,4
c) Lukasienviez d) Weber
Quando as informaes so imprecisas, a mquina de inferncia implementa o assim chamado
raciocnio aproximado. A lgica Fuzzy implementa o raciocnio aproximado no contexto dos conjuntos
fuzzy (modus ponens generalizado).

fato: A` Os tomates esto muito vermelhos
regra: AB Se os tomates esto vermelhos ento esto maduros
______________________________________________________
conseqncia B` Os tomates esto muito maduros

A = n(A)
A B = T(A,B)
A B = S(A,B)
A B = I(A,B)

Operadores de implicao

I : [0,1]
2
[0,1] ,
A
: X [0,1],
B
: Y [0,1]

AB
(x,y) = I(
A
(x),
B
(y))

Se <premissa> ento <concluso>
Implicao Nome
max (1-a,b)
min(1-a+b,1)
min(a.b)
a.b

Kleene-Dimes
Lukasiewicz
Mamdani
Larsen

Raciocnio fuzzy baseado em composio Max-Min

Definio: Sejam A, A e B conjuntos fuzzy em X, X e Y respectivamente. Assuma que a
inplicao fuzzy A B expressa pela relao fuzzy R sobre XxY, ento o conjunto fuzzy B induzido
x A e a regra fuzzy se x A ento y B definida por:

B
(y) = max
x
min [
A
(x),
R
(x,y)]
= V
x
[
A
(x)
R
(x,y)]
ou seja, ) B (A A R A B = = o o .

Uma regra com um antecedente
Figura 60 - Raciocinio fuzzy para uma regra e um antecedente.
A A
B
X
Y
min
w
B
n negao
T t -norma
S t-conorma
I implicao
B
(y) = [V
x
(
A
(x)
A
(x))]
B
(y)
=
B
(y)

grau de petinncia ao mximo de
A
(x)
A
(x).

Uma Regra fuzzy com dois antecedentes

Se x A e y B ento z C. AxB C

Fato: x A` e y B`
Regra: se x A e y B ento z C
_______________________
Concluso: z C`

R
(x,y,z) =
(AxB)xC
(x,y,z)
=
A
(x)
B
(y)
C
(z)
C` = (A` x B`) (AxB C)

C`
(z) = V
x,z
[
A`
(x)
B`
(y)] [
A
(x)
B
(y)
C
(z)]
= {V
x
[
A`
(x)
A
(x)]} {V
y
[
B`
(y)
B
(y)]}
C
(z)
[_______________] [_______________]

1

2

C`
(z) =
1

2

C
(z)

1
,

2
graus de pertinncia das respectivas regras.
A A`
w1
w2
B B`
C`
C
min
w
X Y Z

Figura 61 - Raciocinio fuzzy para uma regra e dois antecedentes.

Mltiplas regras fuzzy com mltiplos antecedentes

Fato: x A` e y B`
Regra 1: Se x A
1
e y B
1
ento z C
1

Regra 2: Se x A
2
e y B
2
ento z C
2

_________________________
Concluso: z C`

R
1
= A
1
x B
1
C
1

R
2
= A
2
x B
2
C
2

Como o operador de composio Max-min distributivo sobre o operador :

C` = (A`x B`) (R
1
R
2
)
= [(A`x B`) R
1
] [(A`x B`) R
2
]
= C
1
` C
2
`

X
A`
Y
B`
Z
min
A1
B1
C1
A`
X
A2 B`
Y
B2
Z
C2
Z
C`

Figura 62 - Raciocinio fuzzy para duas regra com dois antecedentes.

Inferncia fuzzy com A` crisp (exato)

Para valores numricos de entrada os seguintes modelos podem ser utilizados para a inferncia
fuzzy:

-Modelo de Mamdani
-Modelo de Sugeno
-Modelo de Tsukamoto

O modelo de Mamdani para inferncia fuzzy o mais utilizado. Existem duas variantes:

min-max
prod-max

A1
A2
X
X
x
y
Y
Y
Z
C1
C1`
min
Z
C2
C2`
prod
Z
Z
Z
C`
C`
Z
Max Max

Figura 63 - Raciocinio fuzzy para fatos numricos. Utilizao de min-max e prod-max.

z
CA
=
z

C`
(z)zdz

z

C`
(z)dz

Esquemas de defuzzyficao

Z
C`
maior do max
centride da rea
bisseo da rea
mdia do max
menor do max

Figura 64 Esquemas de defuzzyficao.

Modelo de Sugeno para inferncia fuzzy

Se x A y B, ento z = f(x,y)

B1 A1
X Y
w1
w2
min ou
prod
A2
X Y
B2
z1= p1x+ q1y+ r1
z2= p2x+ q2y+ r2
z= w1z1+ w2z2
w1+ w2
Media ponderada

Figura 65 Modelo de Sugeno para inferncia fuzzy.

Se f(x,y) um polinmio de 1 ordem, o sistema dito ser um modelo de inferncia de Sugeno de
1 ordem.

Modelo de Tsukamoto para inferncia fuzzy
B1
X
A1
Y
w1
min ou
prod
Z
C1
z1
A2
X
w2
Y
B2
Z
C2
z2
Media ponderada
w1+ w2
z= w1z1+ w2z2

Figura 66 Modelo de Tsukamoto para inferncia fuzzy.

O conseqente de cada regra um conjunto fuzzy com funo de pertinncia monotnica.

e
De
F I D
Base de regras
Du
3.11. Estilos de partio de espao para modelos fuzzy

Idia bsica: dividir para conquistar.
Cada regra fuzzy abrange uma caracterstica local do espao de entrada.

Partio em grade Partio em rvore Partio distribruda

Exemplo: controlador fuzzy proporcional

N
NM PM P
erro

Exemplo: Controlador Fuzzy PI

P I = u = K
P
+ K
I

dt e

u = K
P
+ K
J

Figura 67 Partio do Universo de Discurso (erro) para um Controlador Fuzzy PI
NM NS ZE PS PM PB NB
3.12. ANFIS: Adaptive Neuro-Fuzzy Inference System
Uma das possibilidades mais interessantes em sistemas inteligentes combinar as caractersticas
interessantes de RNA com a Lgica Fuzzy. O Sistema ANFIS permite criar um conjunto de regras que so
trainadas com os dados da aplicao. Tem-se assim a componente de explicao dos sistemas especialistas
combinada com a caracterstica de aprendizagem dos sistemas neurais.
Para o modelo Fuzzy de Sugeno de 1 ordem:

R
1
: Se x A e y B, ento f
1
= p
1
x + q
1
y + r
1

R
2
: Se x A
2
e y B
2
, ento f
2
= p
2
x + q
2
y + r
2

A1
B1
X Y
Y
X
x y
f1= p1x+ q1y+ r1
f2= p2x+ q2y+ r2
f= w1f1+ w2f2
w1+ w2
= w1f1+ w2f2
w1
w2

figura 68 Modelo de Sugeno com duas regras.

Tem a seguinte arquitetura ANFIS equivalente:
X
Y
f
A1
A2
B1
B2
N
N
x y
x y
w1f1
w2f2

Figura 69 Arquitetura ANFIS para o modelo de Sugeno.

Rede feed-forward Adaptativa bloco adaptativo bloco fixo

Camada 1: Ns adaptativos.

1,i
=
Ai
(x), para i = 1, 2.

1,i
=
B i-2
(y), para i = 3, 4.

Onde Ai pode ser caracterizada pela funo seno generalizada

Ai
(x) = 1
1 + [(x-ci)
2
/(ai)
2
]
bi

{ai, bi, ci} o conjunto de parmetros das premissas.

Camada 2: Ns fixos.

2,i
=
i
=
Ai
(x) x
B i
(y), i = 1, 2

T-Norma

- disparo de cada regra.

Camada 3: Ns fixos.

3,i
=
i
(mdio) =
i
., i = 1,2

1
+
2

- disparo normalizado de cada regra.

Camada 4: Ns adaptativos.

4,i
=
i
. f
i
=
i
. (p
i
x + qiy + r
i
) , i = 1,2

1
+
2

1
+
2

{ p
i,
qi, r
i
} o conjunto de parmetros das conseqncias.

Camada 5: N fixo.

5,I
=
i

i
. f
i
=
i

i
f
i

1
+
2

i
i

Da mesma podem ser utilizados os modelos de Mamdani ou Tsukamoto para implementar uma
ANFIS.

Algoritmo de Aprendizado Hbrido

1 Fixar os parmetros das premissas.
Sada combinao linear dos parmetros das conseqncias.

f =
1
. f
1
+
2
. f
2

1
+
2

1
+
2

= 1 . (
1
xp
1
+
1
yq
1
+
1
r
1
+
2
xp
2
+
2
yq
2
+
2
r
2
)

1
+
2

Parmetros das conseqncias identificveis pelo mtodo dos mnimos quadrados.

2 Back-propagtion dos sinais de erro para adaptar os parmetros das premissas.
Mtodo do gradiente descendente.

Passo Forward Passo Backward
Parmetros Premissas Fixos Gradiente descendente
Parmetros Conseqncias Estimativa MMQ Fixos
Sinais Ns de sada Sinais de erro

Na toolbox Fuzzy Logic do MatLab a funo ANFIS implementa o Adaptive Neuro-Fuzzy Inference
System.
4. Ferramentas Computacionais
Existem atualmente diversas ferramentas computacionais que podem ser utilizadas para
implementar sistemas inteligentes. Dependendo da aplicao uma ou outra pode ser mais interessante.
Para o ambiente Unix o sistema SNNS (Suttgart Neural Network Simulator), desenvolvido pelo
IPVR da Universidade de Stuttgart e mantido pela Universidade de Tbingen - Alemanha, implementa uma
grande variedade de redes e bastante difundido entre a comunidade acadmica. de domnio pblico e
pode ser obtido em: http://www-ra.informatik.uni-tuebingen.de/SNNS/

Figura 70 Suttgart Neural Network Simulator.

O sistema XFuzzy para Unix foi desenvolvido pelo Instituto de Microelectrnica de Sevilla
Espanha e pode ser obtido em http://www.imse.cnm.es/Xfuzzy/download.htm

Atualmente o MatLab (http://www.mathworks.com) com as suas Toolboxes Neural Network e
Fuzzy Logic tanto para ambiente Windows Microsoft como para estaes de trabalho Unix / Linux a
ferramenta predominante para aplicaes de sistemas inteligentes. O MatLab/Simulink permite um
tratamento integrado do problema, onde a rede neural ou a lgica fuzzy so um dos blocos da simulao do
processo completo. E isto decisivo, pois, em geral o pr- e ps-processamento dos sinais a serem tratados
pelos sistemas inteligentes demandam muito mais esforo de engenharia que a definio e treinamento da
RNA / Sistema Fuzzy.
O ambiente SciLab (http://www-rocq.inria.fr/scilab/) um pacote cientfico de domnio pblico
que tem entre outros pacotes de redes neurais e de lgica fuzzy.

5. Exemplos de Aplicaes em Engenharia
A seguir sero apresentadas brevemente trs aplicaes que ilustram o potencial dos sistemas
inteligentes para tratar problemas de engenharia complexos.

5.1. Reconhecimento ptico de Caracteres (OCR)

Rede Perceptron Multicamada com 63 entradas e 16 sadas para reconhecimento de caracteres
hexadecimais.

Vetores de treinamento:

Padro de Entrada com 20% de rudo:

Resultado:

Apenas o dgito 0 foi classificado incorretamente.
5.2. Identificao de Falhas em Estruturas Mecnicas

DAMAGE DETECTION USING AN HIBRID FORMULATION BETWEEN CHANGES IN
CURVATURE MODE SHAPES AND NEURAL NETWORK.

Miguel Genovese, Adolfo Bauchspiess, Jos L.V. de Brito,Graciela N. Doz


5.3. Controle Fuzzy de Processo de Nvel de Lquidos

O objetivo controlar o nvel de
lquido em trs reservatrios acoplados.

Controle PI

Controle Fuzzy

No-Linear Acoplado Multivarivel
Concluses

A teoria de sistemas inteligentes ainda relativamente recente, porm diversas aplicaes
comerciais mostram o potencial desta nova rea do conhecimento.
No se tem a expectativa de que RNA ou Lgica Fuzzy venham a substituir as tcnicas
convencionais. Elas so um novo paradigma para lidar com sistemas complexos.
O aprendizado um aspecto fundamental na sobrevivncia dos seres vivos. A utilizao desta em
problemas de engenharia permite tratar problemas de engenharia de forma promissora.
A aplicao de lgica fuzzy gera um sistema especialista. Portanto s um especialista no assunto em
questo pode definir regras que reflitam a expertise deste. No basta definir um conjunto de regras para
que o sistema opere satisfatoriamente. As regras devem refletir o conhecimento matemtico (no-linear)
subjacente ao problema em questo.
A viso crtica dos resultados obtidos por sistemas inteligentes continua sendo fundamental para
toda aplicao. A validao do sistema inteligente indispensvel, antes que seja empregado numa certa
aplicao.

Bibliografia

1. Haykin, S.: Redes Neurais: Princpios e Prtica. 2.ed. Porto Alegre, Bookman, 2001.
2. Nascimento Jr. C.L.: Yoneyama, T.: Inteligncia Artificial em Controle e Automao,
Edgard Blcher, 2000
3. Shaw, I. S., Simes, M. G.: Controle e Modelagem Fuzzy, Edgard Blcher, So
Paulo, 1999
4. Kasabov, N.K.: Foundations of Neural Network, Fuzzy Systems and Knowledge
Engineering, MIT-Press, 1996
5. Loesch, C.; Sari, S.: Redes Neurais Artificiais Fundamentos e Modelos, Editora da
FURB, 1996
6. Kovcs, Z.L.: Redes Neurais Artificiais Fundamentos e Aplicaes, Edio
Acadmica, 1996
7. Kovcs, Z.L.: O Crebro e a sua Mente Uma Introduo Neurocincia
Computacional, Edio Acadmica, 1997
8. CD-ROM - V Escola de Redes Neurais, ITA, 1999
9. Krse, B., van der Smagt, P: An Introduction to Neural Networks
www.robotic.dlr.de/Smagt/books/
10. MathWorks - Neural Network Toolbox - User Manual
11. MathWorks - Fuzzy Logic Toolbox - User Manual
12. Internet www Muitos sites com programas em java.

Isi

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Isi

Enviado por

Direitos autorais:

Formatos disponíveis

Introduo aos Sistemas Inteligentes

todos os neurnios de uma camada devem ter a

erro naquele passo.

Você também pode gostar