Escolar Documentos
Profissional Documentos
Cultura Documentos
O que aprenderemos?
𝑥1 𝑤1
LIMIAR DE
𝜃 ATIVAÇÃO
u= 𝑤𝑖 𝑥𝑖 − 𝜃
S
𝑤2 𝑢 𝑖
𝑥2 POTENCIAL
𝒈(𝒖) 𝑦
𝑤𝑛 DE ATIVAÇÃO SAÍDA 𝑦 = 𝑔(𝑢)
⋮ FUNÇÃO DE
ATIVAÇÃO
PESOS
𝑥𝑛 SINÁPTICOS
ENTRADAS
7
BIPOLAR
𝑢 𝑢 𝑎 𝑢
−1 −𝑎
8
HIPERBÓLICA
𝑢 𝑢 𝑎 𝑢
−1 −𝑎
9
1 1
fornecer as entradas da rede, normalmente
𝑦1 são escalonadas (normalizadas) em
2 relação à variação dinâmica das variáveis
𝑥2 2 2 𝑦2 para melhorar a precisão da rede.
𝑥𝑛 ⋮ processo ou sistema.
𝒏𝟏 m 𝑦𝑚
CAMADA DE SAÍDA: responsável pela
CAMADA DE 𝒏𝟐 CAMADA produção e apresentação dos resultados.
ENTRADA
DE SAÍDA
CAMADAS
ESCONDIDAS
10
𝑥2
⋮
𝑥𝑛
𝑦11 𝑦12
SAÍDAS
𝑦22
𝑦21
⋮ ⋮
12
A rede perceptron
• Foi idealizada por Rosenblatt (1958) a fim de
modelar o funcionamento da retina humana na
identificação de padrões geométricos.
𝑥1 𝑤1
LIMIAR DE
𝜃 ATIVAÇÃO
u= 𝑤𝑖 𝑥𝑖 − 𝜃
S
𝑤2 𝑢 𝑖
𝑥2 POTENCIAL
𝒈(𝒖) 𝑦
𝑤𝑛 DE ATIVAÇÃO SAÍDA 𝑦 = 𝑔(𝑢)
⋮ FUNÇÃO DE
ATIVAÇÃO
PESOS
𝑥𝑛 SINÁPTICOS
ENTRADAS
19
A rede perceptron
• Funcionamento (Silva et al, 2010):
A rede perceptron
• Treinamento:
• O limiar de ativação (𝜃) será considerado como um
peso sináptico (𝑤0 ) a ser ajustado durante o
processo.
• No início do treinamento, geralmente, todos os pesos
sinápticos são inicializados aleatoriamente com valores
pequenos.
• Comumente a regra de Hebb (proposta por Donald
Hebb em 1949 a partir dos estudos do neurônio
biológico) é utilizada no treinamento
supervisionado da rede perceptron para fins de
classificação de padrões.
21
A rede perceptron
• Regra de Hebb: atualização dos pesos sinápticos
𝑛𝑜𝑣𝑜 𝑎𝑛𝑡𝑖𝑔𝑜
𝑤(𝑖) = 𝑤(𝑖) + 𝜂 𝑑𝑘 − 𝑦𝑘 𝑥𝑘(𝑖) , 𝑖 = 0, … , 𝑛
TAXA DE
APRENDIZAGEM
ELEMENTO I DO SAÍDA DA
RESPOSTA
VETOR DE PESOS 𝟎<𝜼<𝟏 DESEJADA PARA A
REDE PARA A ELEMENTO I DO VETOR
SINÁPTICOS. AMOSTRA K. DE ENTRADAS DA
AMOSTRA K.
AMOSTRA K.
(SUPERVISÃO)
• Ou na forma vetorial:
𝑾𝑛𝑜𝑣𝑜 = 𝑾𝑎𝑛𝑡𝑖𝑔𝑜 + 𝜂 𝑑𝑘 − 𝑦𝑘 𝑿𝑘
• A escolha de 𝜂 deve ser realizada com cautela para
evitar a instabilidade do processo de treinamento.
22
A rede perceptron
A rede perceptron
• Assim, a atualização dos pesos sinápticos deve ser
realizada, a cada época de treinamento, para cada
amostra de treino da seguinte forma:
𝑾𝑛𝑜𝑣𝑜 = 𝑾𝑎𝑛𝑡𝑖𝑔𝑜 + 𝜂 𝑑𝑘 − 𝑦𝑘 𝑿𝑘
A rede perceptron
• Implementação do treinamento da rede:
1. Coletar as amostras e armazená-las em uma matriz 𝑿 (as linhas
serão as entradas/variáveis 𝑥𝑖(𝑘) e as colunas serão as
amostras independentes 𝑘).
2. Armazenar a saída desejada para cada amostra 𝑑𝑘 .
3. Inicializar o vetor de pesos com números aleatórios pequenos.
4. Estipular a taxa de aprendizagem 𝜂.
5. Faça 𝑒𝑟𝑟𝑜 = 0.
6. Para todas as amostras 𝑘 de treino faça:
1. 𝑦𝑘 = 𝑑𝑒𝑔𝑟𝑎𝑢_𝑏𝑖𝑝𝑜𝑙𝑎𝑟(𝑾𝑡 𝑿𝑘 ).
2. Se 𝑦𝑘 ≠ 𝑑𝑘 então faça:
1. 𝑾 = 𝑾 + 𝜂 𝑑𝑘 − 𝑦𝑘 𝑿𝑘 .
2. 𝑒𝑟𝑟𝑜 = 1.
7. Se 𝑒𝑟𝑟𝑜 == 1 volte ao passo 5, senão forneça como resposta a
matriz dos pesos sinápticos da rede 𝑾.
25
A rede perceptron
A rede perceptron
A rede perceptron
• Análise matemática da rede perceptron:
• Sendo esta rede neural constituída de apenas um
neurônio artificial, podemos descrever sua saída
através da seguinte equação geral:
𝑦=𝑔 𝑤𝑖 𝑥𝑖 − 𝜃
𝑖
A rede perceptron
• O resultado da equação anterior depende do tipo de função
ativação da rede, assim, considerando uma função degrau
bipolar tempos:
𝑦 = 𝑑𝑒𝑔𝑟𝑎𝑢_𝑏𝑖𝑝𝑜𝑙𝑎𝑟(𝑤1 𝑥1 + 𝑤2 𝑥2 − 𝜃)
• E neste caso a saída (𝑦) poderá assumir apenas dois valores (1 ou
-1) resultando na classificação de apenas dois padrões distintos.
A rede perceptron
• Testes de classificação:
Agora, vamos utilizar a rede
perceptron para extrair o
padrão de classificação
destas classes de dados e
inferir detalhes sobre seu
processo de treinamento.
30
A rede perceptron
• Testes de classificação:
• Cuidados na implementação:
• Lembre-se que o limiar de ativação (𝜃) foi incluído como um
peso sináptico (𝑤0 ) a fim de ser determinado conjuntamento
com as outras ponderações da rede durante o treinamento.
• Assim, a primeira entrada (𝑥0 ) deve receber um valor igual a −1
para que o somador realize a subtração desta entrada, de modo
que comumente o conjunto de amostras de uma rede é
expresso na forma:
REALIZAÇÕES (MEDIÇÕES)
𝑥0 −1−1−1−1−1 … −1
ENTRADAS
𝑥1
𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑠 = ⋮
𝑥𝑛
31
A rede perceptron
• Testes de classificação: Dado o conjunto de dados,
composto por 300 amostras
de cada classe, realiza-se
separação destas nos
subconjuntos de
treinamento e teste:
TREINAMENTO = 90%
TESTE = 10%
É importante que as
fronteiras dos conjuntos
estejam adequadamente
representadas no conjunto
de treino.
32
A rede perceptron
• Testes de classificação:
Utilizando o algoritmo de
treinamento supervisionado,
baseado na regra de Hebb, com
𝜂 = 0,05 foi possível treinar a rede
após 19 épocas.
A rede perceptron
• Testes de classificação:
A rede perceptron
O aumento da taxa de
A rede perceptron
• Sobre normalização:
• Este processo deve sempre levar em conta a função de
ativação dos neurônios, haja visto que o aumento do
desempenho provém o melhor aproveitamento da
região dinâmica (variação) desta função.
RAZÃO = RAZÃO
𝑚𝑎𝑥 𝑚𝑎𝑥 𝑚𝑖𝑛
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑥𝑛𝑜𝑣𝑜 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 − 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑚𝑖𝑛
𝑥𝑛𝑜𝑣𝑜 − 𝑥𝑛𝑜𝑣𝑜
𝑚𝑎𝑥 𝑚𝑖𝑛
= 𝑚𝑎𝑥 𝑚𝑖𝑛
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 − 𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑥𝑛𝑜𝑣𝑜 − 𝑥𝑛𝑜𝑣𝑜
𝑥𝑎𝑛𝑡𝑖𝑔𝑜 𝑥𝑛𝑜𝑣𝑜
A rede perceptron
• A partir dos resultados dos testes podemos inferir que:
• A saída binária da rede perceptron propicia uma
separação do espaço amostral em apenas duas
classes.
• O processo de treinamento conduz ao ajuste da reta de
separação (pesos sinápticos) utilizada pela rede para
realizar a separação das classes.
• A regra de Hebb não conduz a uma única separação
entre as classes, ao se alterar os parâmetros de
treinamento pode-se obter outras retas (conjunto de
pesos) que também separam corretamente as classes
sob estudo.
• O escalonamento dos dados de entrada pode contrubir
para o aumento do desempenho da rede.
38
A rede perceptron
• Analisando a rede perceptron concluimos que:
• A rede perceptron sempre age no sentido de ajustar os
coeficientes de uma equação linear (reta, plano ou
hiperplano) que descreva a fronteira entre as classes a
serem separadas.
• Neste sentido fica também provado a impossibilidade da
mesma em lidar com conjuntos (classes) não linearmente
separáveis.
• Este resultado foi provado pela primeira vez por Minsky &
Papert (1969) em seu famoso livro “Perceptron: an
introduction to computational geometry”.
• Após a acirrada crítica feita pelos autores demonstrando a
inabilidade da rede perceptron em lidar com problemas não
linearmente separáveis, virtualmente todo o suporte à pesquisa
sobre RNAs nos EUA e em outros países cessou (Tsoukalas e
Uhrig, 1997).
39
A rede perceptron
• Mas o que acontece se as classes que se
pretende separar não forem linearmente
separáveis?
• O algoritmo de treinamento não converge e
nenhuma resposta é produzida, independente do
número de épocas de treinamento!
Referências
Nos vemos...
Muito obrigado!
Prof. Edson A. R. Theodoro
DAELE - UTFPR/Cornélio Procópio
Contato nos horários de atendimento:
SALA 305 – Bloco S
(Sala de Professores da Elétrica)