Você está na página 1de 41

ET69B – SISTEMAS INTELIGENTES

AULA 01 – INTRODUÇÃO ÀS REDES


NEURAIS ARTIFICIAS E A REDE
PERCEPTRON

Professor Edson A. R. Theodoro


DAELE – UTFPR/Cornélio Procópio
2

O que aprenderemos?

• O que são redes neurais artificiais?Quais são seus


diferentes tipos e topologias?

• Quando devemos ou não utilizar uma rede neural


artificial em nossos problemas?

• O que é a rede Perceptron? Como utilizar a regra


de Hebb para treinar e avaliar sua acurácia?

• Qual o papel da normalização/pré-processamento


dos dados de entrada da rede perceptron?
3

Introdução às Redes Neurais Artificiais


• Conceituação (Silva et al, 2010):

• RNAs são modelos computacionais inspirados no


sistema nervoso de seres vivos (humanos).

• Possuem capacidade de aquisição e manutenção


do conhecimento (baseado em informações).

• Podem ser definidas como um conjunto de


unidades de processamento (neurônios artificiais)
interconectas através de um grande número de
conexões (sinapses).
4

Introdução às Redes Neurais Artificiais


• Características:
• Aprendizado por exemplo (experimentação): o ajuste
dos parâmetros internos é realizada a partir da
apresentação sucessiva de padrões.
• Capacidade de generalização: após o processo de
aprendizado a rede é capaz de generalizar o
conhecimento adquirido em algum sentido.
• Constituem uma memória distribuida associativa
tolerante a falhas: as informações são armazenas nos
parâmetros sinápticos distribuidos ao longo de toda a
rede, assim como apresentam a capacidade de
reproduzir o padrão de saída mais próximo (adequado)
ao estímulo de entrada, mesmo na ocorrência de
imperfeições nesta entrada.
5

Introdução às Redes Neurais Artificiais


• O neurônio biológico:
Característica Dimensão

Massa cerebral 1,5 [kg]

% da energia total consumido 20%

Comprimento do neurônio 100 [mm]

Potencial de repouso -70 [mV]

Potencial de ativação -55 [mV]

Potencial de ação 35 [mV]

O cérebro humano possui cerca de 100 bilhões de


neurônios, sendo cada um conectado a cerca
1000~6000 outros nerônios, resultando num total de
mais de 100 trilhões de conexões sinápticas.

Fonte: Retirada de (Silva et al, 2010).


6

Introdução às Redes Neurais Artificiais


• O modelo matemático do neurônio:
• É um modelo proposto a partir dos estudos da geração
e propagação de impulsos pelo neurônio biológico.
• O modelo de McCulloch & Pitts (1943) é um dos mais
utilizados.
−1

𝑥1 𝑤1
LIMIAR DE
𝜃 ATIVAÇÃO
u= 𝑤𝑖 𝑥𝑖 − 𝜃

S
𝑤2 𝑢 𝑖
𝑥2 POTENCIAL
𝒈(𝒖) 𝑦
𝑤𝑛 DE ATIVAÇÃO SAÍDA 𝑦 = 𝑔(𝑢)
⋮ FUNÇÃO DE
ATIVAÇÃO
PESOS
𝑥𝑛 SINÁPTICOS

ENTRADAS
7

Introdução às Redes Neurais Artificiais


• As funções de ativação:
• Têm como função principal limitar a saída do neurônio
(também conhecidas como squashing functions), de
modo que dada uma excitação suficiente, maior que o
limiar de ativação, produza uma saída respectiva a
ação do neurônio.
𝑔(𝑢) 𝑔(𝑢) 𝑔(𝑢) 1, se 𝑢 > 𝑎
1, se 𝑢 ≥ 0 1, se 𝑢 ≥ 0 𝑔 𝑢 = u, se −𝑎 ≤ 𝑢 ≤ 𝑎
𝑔 𝑢 = 𝑔 𝑢 =
0, se 𝑢 < 0 -1, se 𝑢 < 0 -1, se 𝑢 < −𝑎
1 1 𝑎
RAMPA
DEGRAU
DEGRAU −𝑎 SIMÉTRICA

BIPOLAR
𝑢 𝑢 𝑎 𝑢
−1 −𝑎
8

Introdução às Redes Neurais Artificiais

• As funções de ativação anteriores produzem saídas de


fácil entendimento, porém não são diferenciáveis em
todo o seu domínio.
• Para o treinamento de RNAs é frequentemente
necessário que tais funções sejam diferenciáveis.
𝑔(𝑢) 𝑔(𝑢) 𝑔(𝑢)
1 1 − 𝑒 −𝛽𝑢 𝑔 𝑢 =𝑢
𝑔 𝑢 = 𝑔 𝑢 =
1 + 𝑒 −𝛽𝑢 1 + 𝑒 −𝛽𝑢
1 1 𝑎
IDENTIDADE
LOGÍSTICA TANGENTE −𝑎 LINEAR

HIPERBÓLICA
𝑢 𝑢 𝑎 𝑢
−1 −𝑎
9

Introdução às Redes Neurais Artificiais


• Arquiteturas de RNAs (Silva et al, 2010):
• Estruturadas a partir do direcionamento das conexões sinápticas.

• Feedforward (são utilizadas em 80% das aplicações práticas)


UNIDIRECIONAL

𝑥1 1 CAMADA DE ENTRADA: responsável por

1 1
fornecer as entradas da rede, normalmente
𝑦1 são escalonadas (normalizadas) em
2 relação à variação dinâmica das variáveis
𝑥2 2 2 𝑦2 para melhorar a precisão da rede.

⋮ 3 CAMADAS ESCONDIDAS: reponsável pela


⋮ ⋮ ⋮ extração das características associadas ao

𝑥𝑛 ⋮ processo ou sistema.
𝒏𝟏 m 𝑦𝑚
CAMADA DE SAÍDA: responsável pela
CAMADA DE 𝒏𝟐 CAMADA produção e apresentação dos resultados.
ENTRADA
DE SAÍDA
CAMADAS
ESCONDIDAS
10

Introdução às Redes Neurais Artificiais

• Recorrentes (possuem retroalimentação)


• Tais redes possuem realimentação (feedback)
proveniente da camada de saída ou entre as
camadas escondidas.
CAMADA
ESCONDIDA
𝑥1
1 1 𝑦1
FEEDBACK (retroalimentação): responsável
CAMADA DE
ENTRADA

𝑦2 por qualificar tais redes para aplicação em


𝑥2 2 2 processamento dinâmico (temporal), como por
⋮ ⋮ ⋮ ⋮ exemplo previsões de séries e controle de
sistemas variantes no tempo.
𝑥𝑛 𝒏𝟏 m 𝑦𝑚
CAMADA
DE SAÍDA
feedback
11

Introdução às Redes Neurais Artificiais


• Reticuladas (grid/array/cell)
• Possuem a característica de todos os neurônios receberem os
padrões de entrada e podem possuir conexões laterais entre
neurônios de uma mesma camada.
• Normalmente são redes auto-organizáveis utilizadas para
reconhecimento de padrões.
𝑥1
CAMADA DE
ENTRADA

𝑥2

𝑥𝑛

𝑦11 𝑦12
SAÍDAS
𝑦22
𝑦21
⋮ ⋮
12

Introdução às Redes Neurais Artificiais


• Treinamento (aprendizagem):
• O treinamento de uma rede neural visa realizar o
ajuste dos pesos sinápticos e dos limiares de
ativação de todos os neurônios da rede.
• Uma rede neural treinada adequadamente possui
capacidade de generalização, o que significa que a rede
será capaz de produzir saídas próximas as esperadas, a
partir de quaisquer sinais inseridos em suas entradas.
• Para a realização do treinamento de uma rede
neural, subdivide-se a população de amostras
selecionadas em:
• Conjunto de treinamento: 60~90% do total de amostra.
• Conjunto de teste: 10~40% do total de amostras.
13

Introdução às Redes Neurais Artificiais

• Sempre que possível, é importante atentar para


que os casos críticos, máximos e mínimos, estejam
no conjunto de treinamento a fim de possibilitar o
melhor aprendizado da rede.
• Também deve-se atentar para que todo o espaço
amostral esteja adequadamente representado no
conjunto de treinamento.
• Muitas vezes opta-se por realizar diversos tipos de
pré-processamento nos dados de entrada da rede
a fim de eliminar não linearidades, e grandes
diferenças de magnitude entre as variáveis
(escalonamento).
14

Introdução às Redes Neurais Artificiais


• Tipos de treinamento:
• Supervisionado: constitui-se da apresentação de pares
(entrada/saída desejada) a fim de “tutorar” a rede e
fazê-la abstrair as característica necessárias à
generalização dos casos, permitindo que a rede
forneça respostas próximas as desejadas quando da
inserção de novas entradas.
• Não supervisionado: constitui-se da apresentação
apenas de entradas, de modo a permitir que a rede se
auto-organize e identifique características em comum
entre os padrões de entrada formando classes
(clusters) que irão ser utilizadas para reconhecer
padrões similares quando da inserção de novas
entradas.
15

Introdução às Redes Neurais Artificiais


• Quando devemos utilizar uma rede neural
(Tsoukalas e Uhrig, 1997)?
• A tecnologia computacional atual se mostra
inadequada?

• O problema requer raciocício qualitativo ou quantitativo


complexo?

• O problema depende de múltiplos parâmetros


interdependentes?

• A solução do problema é derivada a partir de


parâmetros interdependentes que não possuem
quantificação precisa?
16

Introdução às Redes Neurais Artificiais


• Os dados estão prontamente disponíveis, no entanto, estão
intrinsicamente sujeitos a ruídos e erros de diversas
origens?
• Alguns dados podem estar corrompidos ou perdidos?

• O fenômeno é tão complexo que outras abordagens se


mostram ineficazes, muito complicadas ou excessivamente
caras?

• Existe uma quantidade de dados derivados de exemplos


específicos, suficientemente grande, para modelar o
problema em questão?

• O tempo de desenvolvimento de projeto é muito curto, no


entanto, suficiente para o treinamento de uma rede neural?
17

Introdução às Redes Neurais Artificiais


• As RNA possuem muitas aplicações,
entretanto, não é geralmente recomendado
seu uso quando (Tsoukalas e Uhrig, 1997):
• 1 – O problema pode ser resolvido utilizando
uma metodologia computacional convencional.

• 2 – Uma altíssima precisão é requerida.

• 3 – Rigor matemático e provas dedutivas são


necessárias nas análises.
18

A rede perceptron
• Foi idealizada por Rosenblatt (1958) a fim de
modelar o funcionamento da retina humana na
identificação de padrões geométricos.

• Sendo consituida de apenas um neurônio artificial, é


a RNA mais simples que pode ser concebida.
−1

𝑥1 𝑤1
LIMIAR DE
𝜃 ATIVAÇÃO
u= 𝑤𝑖 𝑥𝑖 − 𝜃

S
𝑤2 𝑢 𝑖
𝑥2 POTENCIAL
𝒈(𝒖) 𝑦
𝑤𝑛 DE ATIVAÇÃO SAÍDA 𝑦 = 𝑔(𝑢)
⋮ FUNÇÃO DE
ATIVAÇÃO
PESOS
𝑥𝑛 SINÁPTICOS

ENTRADAS
19

A rede perceptron
• Funcionamento (Silva et al, 2010):

• A rede perceptron recebe um vetor de variáveis de


entrada, ponderados pelos pesos sinápticos, quantifica-
se a importância de cada entrada frente ao objetivo
funcional pretendido ao neurônio.

• A composição (soma) das entradas ponderadas é


descontada do limiar de ativação e então repassada à
função de ativação que irá gerar a saída do processo.

• Tipicamente as funções de ativação utilizadas na rede


perceptron são a função degrau ou degrau bipolar para
fins de classificação de padrões.
20

A rede perceptron
• Treinamento:
• O limiar de ativação (𝜃) será considerado como um
peso sináptico (𝑤0 ) a ser ajustado durante o
processo.
• No início do treinamento, geralmente, todos os pesos
sinápticos são inicializados aleatoriamente com valores
pequenos.
• Comumente a regra de Hebb (proposta por Donald
Hebb em 1949 a partir dos estudos do neurônio
biológico) é utilizada no treinamento
supervisionado da rede perceptron para fins de
classificação de padrões.
21

A rede perceptron
• Regra de Hebb: atualização dos pesos sinápticos
𝑛𝑜𝑣𝑜 𝑎𝑛𝑡𝑖𝑔𝑜
𝑤(𝑖) = 𝑤(𝑖) + 𝜂 𝑑𝑘 − 𝑦𝑘 𝑥𝑘(𝑖) , 𝑖 = 0, … , 𝑛
TAXA DE
APRENDIZAGEM
ELEMENTO I DO SAÍDA DA
RESPOSTA
VETOR DE PESOS 𝟎<𝜼<𝟏 DESEJADA PARA A
REDE PARA A ELEMENTO I DO VETOR
SINÁPTICOS. AMOSTRA K. DE ENTRADAS DA
AMOSTRA K.
AMOSTRA K.
(SUPERVISÃO)

• Ou na forma vetorial:
𝑾𝑛𝑜𝑣𝑜 = 𝑾𝑎𝑛𝑡𝑖𝑔𝑜 + 𝜂 𝑑𝑘 − 𝑦𝑘 𝑿𝑘
• A escolha de 𝜂 deve ser realizada com cautela para
evitar a instabilidade do processo de treinamento.
22

A rede perceptron

• A regra de Hebb conduz a rede perceptron a


ao seguinte comportamento durante o treino:
• incrementar os pesos sinápticos sempre que a
resposta da rede seja inferior à saída desejada
(ajuste excitatório).
• decrementar os pesos sinápticos sempre que a
resposta da rede seja superior à saída desejada
(ajuste inibitório).
• Durante o treinamento da rede, cada etapa de
apresentação do conjunto total de amostras é
denominada época de treinamento.
23

A rede perceptron
• Assim, a atualização dos pesos sinápticos deve ser
realizada, a cada época de treinamento, para cada
amostra de treino da seguinte forma:

𝑾𝑛𝑜𝑣𝑜 = 𝑾𝑎𝑛𝑡𝑖𝑔𝑜 + 𝜂 𝑑𝑘 − 𝑦𝑘 𝑿𝑘

• Importate: observe que a saída da rede neural é


calculada para cada amostra através da expressão
𝑦𝑘 = 𝑔(𝑊 𝑡 𝑿𝑘 ), o que implica que a medida em que os
pesos sinápticos são atualizados para cada amostra,
deve-se utilizar estes valores atualizados no cálculo da
saída da rede neural para a próxima amostra.
24

A rede perceptron
• Implementação do treinamento da rede:
1. Coletar as amostras e armazená-las em uma matriz 𝑿 (as linhas
serão as entradas/variáveis 𝑥𝑖(𝑘) e as colunas serão as
amostras independentes 𝑘).
2. Armazenar a saída desejada para cada amostra 𝑑𝑘 .
3. Inicializar o vetor de pesos com números aleatórios pequenos.
4. Estipular a taxa de aprendizagem 𝜂.
5. Faça 𝑒𝑟𝑟𝑜 = 0.
6. Para todas as amostras 𝑘 de treino faça:
1. 𝑦𝑘 = 𝑑𝑒𝑔𝑟𝑎𝑢_𝑏𝑖𝑝𝑜𝑙𝑎𝑟(𝑾𝑡 𝑿𝑘 ).
2. Se 𝑦𝑘 ≠ 𝑑𝑘 então faça:
1. 𝑾 = 𝑾 + 𝜂 𝑑𝑘 − 𝑦𝑘 𝑿𝑘 .
2. 𝑒𝑟𝑟𝑜 = 1.
7. Se 𝑒𝑟𝑟𝑜 == 1 volte ao passo 5, senão forneça como resposta a
matriz dos pesos sinápticos da rede 𝑾.
25

A rede perceptron

• Critérios de parada para o treinamento:

• Como pode ser observado a partir do algoritmo


anterior, o critério de convergência (parada) do
treinamento é a inexistência de discrepâncias entre
a saída produzida pela rede e aquela desejada
pelo projetista.

• No entanto, a fim de evitar casos onde o algoritmo


possa entrar em loop infinito, geralmente adota-se
um número máximo de épocas de treinamento
como critério geral de divergência do treino.
26

A rede perceptron

• Implementação da operação da rede:


1. Organizar as amostras a serem classificadas e


armazená-las em uma matriz 𝑿 (as linhas serão as
entradas/variáveis 𝑥𝑖(𝑘) e as colunas serão as
amostras independentes 𝑘).
2. Ler o vetor de pesos sinápticos 𝑾 ajustados ao final
do treinamento da rede.
3. Para todas as amostras 𝑘 a serem classificadas faça:
1. 𝑦𝑘 = 𝑑𝑒𝑔𝑟𝑎𝑢_𝑏𝑖𝑝𝑜𝑙𝑎𝑟 𝑾𝑡 𝑿𝑘 .
2. Se 𝑦𝑘 == 1 então 𝑿𝑘 pertence a classe A, senão
𝑿𝑘 pertence a classe B.
27

A rede perceptron
• Análise matemática da rede perceptron:
• Sendo esta rede neural constituída de apenas um
neurônio artificial, podemos descrever sua saída
através da seguinte equação geral:

𝑦=𝑔 𝑤𝑖 𝑥𝑖 − 𝜃
𝑖

• Para o caso em que existam apenas duas entradas


teremos o seguinte caso particular:
𝑦 = 𝑔(𝑤1 𝑥1 + 𝑤2 𝑥2 − 𝜃)
28

A rede perceptron
• O resultado da equação anterior depende do tipo de função
ativação da rede, assim, considerando uma função degrau
bipolar tempos:
𝑦 = 𝑑𝑒𝑔𝑟𝑎𝑢_𝑏𝑖𝑝𝑜𝑙𝑎𝑟(𝑤1 𝑥1 + 𝑤2 𝑥2 − 𝜃)
• E neste caso a saída (𝑦) poderá assumir apenas dois valores (1 ou
-1) resultando na classificação de apenas dois padrões distintos.

• No entanto nos interessa os pontos de indefinição da função


de ativação onde 𝑦 = 0, pois são nestes pontos onde se
encontra a separação entre as duas possíveis saídas.
𝑤1 𝑥1 + 𝑤2 𝑥2 − 𝜃 = 0
𝑤1 𝜃
𝑥2 = − 𝑥1 + EQUAÇÃO DA RETA DE
SEPARAÇÃO ENTRE AS CLASSES
𝑤2 𝑤2
29

A rede perceptron
• Testes de classificação:
Agora, vamos utilizar a rede
perceptron para extrair o
padrão de classificação
destas classes de dados e
inferir detalhes sobre seu
processo de treinamento.
30

A rede perceptron
• Testes de classificação:
• Cuidados na implementação:
• Lembre-se que o limiar de ativação (𝜃) foi incluído como um
peso sináptico (𝑤0 ) a fim de ser determinado conjuntamento
com as outras ponderações da rede durante o treinamento.
• Assim, a primeira entrada (𝑥0 ) deve receber um valor igual a −1
para que o somador realize a subtração desta entrada, de modo
que comumente o conjunto de amostras de uma rede é
expresso na forma:
REALIZAÇÕES (MEDIÇÕES)
𝑥0 −1−1−1−1−1 … −1
ENTRADAS

𝑥1
𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑠 = ⋮
𝑥𝑛
31

A rede perceptron
• Testes de classificação: Dado o conjunto de dados,
composto por 300 amostras
de cada classe, realiza-se
separação destas nos
subconjuntos de
treinamento e teste:

TREINAMENTO = 90%
TESTE = 10%

É importante que as
fronteiras dos conjuntos
estejam adequadamente
representadas no conjunto
de treino.
32

A rede perceptron
• Testes de classificação:
Utilizando o algoritmo de
treinamento supervisionado,
baseado na regra de Hebb, com
𝜂 = 0,05 foi possível treinar a rede
após 19 épocas.

Pode-se observar claramente que a


reta de separação entre as classes
utilizada pela rede perceptron foi
sendo ajustada no decorrer dos
passos do treinamento, através do
pesos sinápticos da rede, para
promover a separação adequada
entre os padrões.
33

A rede perceptron
• Testes de classificação:

Após o treinamento verifica-


se a capacidade de
generalização da rede
através da apresentação de
amostras de teste cuja
saída seja conhecida e
conclui-se sobre a acuidade
da rede.

ACERTOS NOS TESTES =


100%
34

A rede perceptron
O aumento da taxa de

• Testes de classificação: aprendizagem implica em uma


maior variação durante a
atualização dos pesos sinápticos,
e isto nem sempre é vantajoso!

Neste caso utilizou-se no


treinamento um novo
conjunto de pesos iniciais e
𝜂 = 0,75 foi possível treinar
a rede após 32 épocas.
A reta obtida é próxima,
porém não é a mesma que
a anterior.

ACERTOS NOS TESTES =


100%
35

A rede perceptron Aplicação do teorema de Tales


para segmentos proporcionais:
𝑚𝑎𝑥 𝑚𝑖𝑛
2. 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 − 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 + 𝑥𝑎𝑛𝑡𝑖𝑔𝑜
• Testes de classificação: 𝑥𝑛𝑜𝑣𝑜 = 𝑚𝑎𝑥
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑚𝑖𝑛
− 𝑥𝑎𝑛𝑡𝑖𝑔𝑜

Neste caso utilizou-se uma


normalização dos dados de
entrada no intervalo [-1,1],
com um novo conjunto de
pesos iniciais e 𝜂 = 0,75 foi
possível treinar a rede após
3 épocas.
Novamente a reta obtida
não é a mesma que a
anterior.

ACERTOS NOS TESTES =


100%
36

A rede perceptron
• Sobre normalização:
• Este processo deve sempre levar em conta a função de
ativação dos neurônios, haja visto que o aumento do
desempenho provém o melhor aproveitamento da
região dinâmica (variação) desta função.
RAZÃO = RAZÃO
𝑚𝑎𝑥 𝑚𝑎𝑥 𝑚𝑖𝑛
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑥𝑛𝑜𝑣𝑜 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 − 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑚𝑖𝑛
𝑥𝑛𝑜𝑣𝑜 − 𝑥𝑛𝑜𝑣𝑜
𝑚𝑎𝑥 𝑚𝑖𝑛
= 𝑚𝑎𝑥 𝑚𝑖𝑛
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 − 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑥𝑛𝑜𝑣𝑜 − 𝑥𝑛𝑜𝑣𝑜
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑥𝑛𝑜𝑣𝑜

𝑚𝑎𝑥 𝑚𝑖𝑛 𝑚𝑎𝑥 𝑚𝑖𝑛 𝑚𝑖𝑛 𝑚𝑎𝑥


𝑥𝑎𝑛𝑡𝑖𝑔𝑜 . 𝑥𝑛𝑜𝑣𝑜 − 𝑥𝑛𝑜𝑣𝑜 − 𝑥𝑛𝑜𝑣𝑜 . 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 + 𝑥𝑛𝑜𝑣𝑜 . 𝑥𝑎𝑛𝑡𝑖𝑔𝑜
𝑚𝑖𝑛 𝑚𝑖𝑛 𝑥𝑛𝑜𝑣𝑜 =
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑥𝑛𝑜𝑣𝑜 𝑚𝑎𝑥
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑚𝑖𝑛
− 𝑥𝑎𝑛𝑡𝑖𝑔𝑜

Aplicação do teorema de Tales


para segmentos proporcionais!
37

A rede perceptron
• A partir dos resultados dos testes podemos inferir que:
• A saída binária da rede perceptron propicia uma
separação do espaço amostral em apenas duas
classes.
• O processo de treinamento conduz ao ajuste da reta de
separação (pesos sinápticos) utilizada pela rede para
realizar a separação das classes.
• A regra de Hebb não conduz a uma única separação
entre as classes, ao se alterar os parâmetros de
treinamento pode-se obter outras retas (conjunto de
pesos) que também separam corretamente as classes
sob estudo.
• O escalonamento dos dados de entrada pode contrubir
para o aumento do desempenho da rede.
38

A rede perceptron
• Analisando a rede perceptron concluimos que:
• A rede perceptron sempre age no sentido de ajustar os
coeficientes de uma equação linear (reta, plano ou
hiperplano) que descreva a fronteira entre as classes a
serem separadas.
• Neste sentido fica também provado a impossibilidade da
mesma em lidar com conjuntos (classes) não linearmente
separáveis.
• Este resultado foi provado pela primeira vez por Minsky &
Papert (1969) em seu famoso livro “Perceptron: an
introduction to computational geometry”.
• Após a acirrada crítica feita pelos autores demonstrando a
inabilidade da rede perceptron em lidar com problemas não
linearmente separáveis, virtualmente todo o suporte à pesquisa
sobre RNAs nos EUA e em outros países cessou (Tsoukalas e
Uhrig, 1997).
39

A rede perceptron
• Mas o que acontece se as classes que se
pretende separar não forem linearmente
separáveis?
• O algoritmo de treinamento não converge e
nenhuma resposta é produzida, independente do
número de épocas de treinamento!

• A resposta a este problema está na inclusão de


camadas escondidas na RNA, ou seja, na criação
das Redes Perceptron Multicamadas que iremos
estudar adiante em nosso curso.
40

Referências

• 1 – Silva, I.N. da, Spatti, D.H., Flauzino, R.A.,


“Redes Neurais Artificiais para Engenharia e
Ciências Aplicadas”, Editora Artliber, 2010.
• 2 – Tsoukalas, L.H., Uhrig, R.E.,“Fuzzy and
Neural Approaches in Engineering”, John
Wiley & Sons Inc, 1997.
• 3 – Spatti, D.H., “Notas de Aula do curso de
Sistemas Inteligentes ministrado na
UTFPR/CP em 2017/02”.
41

Nos vemos...

Muito obrigado!
Prof. Edson A. R. Theodoro
DAELE - UTFPR/Cornélio Procópio
Contato nos horários de atendimento:
SALA 305 – Bloco S
(Sala de Professores da Elétrica)

Você também pode gostar