Semana 7 - Videoaula 19 - Redes Neurais - COM510

REDES NEURAIS
Redes recorrentes e o algoritmo de

retropropagação através do tempo
TÓPICOS
1. Redes Neurais Recorrentes Não-

Autônomas (RNNs)
2. O Algoritmo de Retropropagação
através do tempo
3. Limitações das RNNs
TIPOS DE REDES RECORRENTES
REDES AUTÔNOMAS
• Normalmente a entrada é fixa e a rede evolui

dinamicamente a partir dessa entrada fornecida
• i.e. Rede de Hopfield, Máquina de Boltzmann
REDES NÃO-AUTÔNOMAS
• Entrada varia no tempo [x(t)], dados sequenciais
• i.e. Redes RNN, GRU, LSTM

REDES RECORRENTES
• O novo estado da rede depende tanto da entrada

quanto do estado atual: memória de curto prazo
associada ao estado interno
• Alguns modelos incorporam memórias de longo

prazo: i.e. GRU, LSTM
• As RNNs podem se recordar de características

importantes observadas nos sinais anteriores
• Bastante utilizada para tratamento de sinais

sequenciais: séries temporais, textos, dados
financeiros, sinais de áudio etc.
• RNN são máquinas universais

REDES RECORRENTES
QUANDO PRECISAMOS CONSIDERAR UMA REDE

RECORRENTE COMO MODELO PARA UM
PROBLEMA?
“Sempre que há uma sequência de dados e que a
dinâmica temporal que conecta os dados é mais
importante do que o conteúdo espacial de cada
quadro individual.”
Lex Fridman (MIT)
ALGUMAS APLICAÇÕES
Reconhecimento “Aprendendo
de fala redes neurais”
Geração Primeira
de música nota
Classificação de “O melhor filme que já assisti, Positivo

sentimentos fortemente recomendado”
Reconhecimento de “Uma pessoa

cenas em vídeos correndo”
Tradução “I like chocolate” “Eu gosto de chocolate”

REDES RECORRENTES
A informação nunca atinge um

Rede
neurônio duas vezes.
alimentada
Não há memória, não há ordem
adiante
Camada de temporal
Saída
Entrada Camada
Escondida
A informação
pode atingir um
Rede neurônio mais
recorrente de uma vez.
Camada de Memória, ordem
Saída
Entrada Camada temporal
Escondida
REDES RECORRENTES
Desenrolar a rede no tempo: Unroll
yt y1 y2 y3 yt
RNN
= RNN1 RNN2 RNN3 RNNT
xt x1 x2 x3 xt
PRINCIPAIS ARQUITETURAS
y1 y1 y2 yt y
a0 a0 … a0 …
x1 x1 x1 x2 xt
Um-para-um Um-para-muitos Muitos-para-um
y1 y2 yt yt yty
a0 … a0 … …
x1 x2 xt x1 xtx
Muitos-para-muitos Muitos-para-muitos
EXEMPLO: SEQUÊNCIA DE PALAVRAS
x = “João, o inverno chegou, precisamos …”

x1 x2 x3 x4 x5
Vocabulário:
…
4100
6750 7100
One-Hot-Encoding
QUESTÃO:
 Podemos usar uma rede alimentada
adiante para predizer a próxima palavra
da sequência?
 Como fazer isso?
 Qual é a limitação?
QUESTÃO:
 Podemos usar uma rede alimentada adiante
para predizer a próxima palavra da sequência?
 Resposta curta: SIM
 Como fazer Palavra 1

isso? Palavra 2
Palavra t+1
Palavra t Camada de
Saída
Camada
Entrada
Escondida
QUAL É A LIMITAÇÃO? Palavra 1
Palavra 2
• A memória é limitada a t Palavra t+1
instantes anteriores Camada de

Palavra t
Saída
Camada
• O número de entradas é fixo Entrada
Escondida
• Cada palavra pode representar

um vetor grande (10K entradas
em nosso cenário)
• Excesso de parâmetros
• As RNNs superam essas

limitações
RETROPROPAGAÇÃO
 Recordando o Unrolling
yt y1 y2 y3 yt
RNN = RNN1 RNN2 RNN3 RNNT
xt x1 x2 x3 xt
COMO APLICAMOS O ALGORITMO DE

RETROPROPAGAÇÃO NESTE CASO?
RETROPROPAGAÇÃO PADRÃO
w1j N1
 O gradiente de um neurônio j yj
yj w2j
depende dos gradientes de todos Nj N2
os neurônios, os quais esse yj
w3j N3
alimenta
• QUAL É A IMPLICAÇÃO DISSO QUANDO

TRATAMOS REDES RECORRENTES?
• COMO APLICAR A
RETROPROPAGAÇÃO?
RETROPROPAGAÇÃO AT
y
y1 y2 y3 yt wy
wa
a
wx
RNN1 RNN2 RNN3 RNNT
x
x1 x2 x3 xt
y
wy
wa
LOGO, PARA CALCULAR O GRADIENTE DE UM a
NEURÔNIO, PRECISAMOS CONHECER:
wx
 Gradientes dos neurônios da camada x
posterior (no exemplo do neurônio de saída y)
 Gradientes dos neurônios da própria camada

no instante seguinte
y
wy
wa
a
y1 y2 y3 yt wx
x
RNN1 RNN2 RNN3 RNNT
x1 x2 x3 xt
y
wy
wa
O processo de atualização é idêntico ao
a
realizado pelo algoritmo de retropropagação
tradicional utilizado na rede MLP wx
x
LIMITAÇÕES DAS RNNS
 Desaparecimento ou explosão do gradiente
 Sequências longas podem possuir dependências

longas, i.e.:
• “Os alunos, que estudam na Universidade Virtual do
Estado de São Paulo, possuem grande competência.”
 As RNNs tradicionais possuem apenas memória de

curto prazo, impossibilitando aprendizado de
longas dependências
 Na prática: capacidade semelhante às redes MLP

janeladas
O QUE VIMOS?
• Entendemos o funcionamento das redes

neurais recorrentes não-autônomas
• Compreendemos o funcionamento do
algoritmo de retropropagação através do
tempo
PRÓXIMA AULA
 Na próxima aula iremos conhecer alguns

modelos de redes recorrentes com
memória de longo prazo:
• GRU e LSTM
ATÉ A PRÓXIMA VIDEOAULA

Semana 7 - Videoaula 19 - Redes Neurais - COM510

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Semana 7 - Videoaula 19 - Redes Neurais - COM510

Enviado por

Direitos autorais:

Formatos disponíveis

REDES NEURAIS

Redes recorrentes e o algoritmo de

1. Redes Neurais Recorrentes Não-

• Normalmente a entrada é fixa e a rede evolui

• i.e. Rede de Hopfield, Máquina de Boltzmann

• Entrada varia no tempo [x(t)], dados sequenciais

• i.e. Redes RNN, GRU, LSTM

• O novo estado da rede depende tanto da entrada

• Alguns modelos incorporam memórias de longo

• As RNNs podem se recordar de características

• Bastante utilizada para tratamento de sinais

• RNN são máquinas universais

QUANDO PRECISAMOS CONSIDERAR UMA REDE

Classificação de “O melhor filme que já assisti, Positivo

Reconhecimento de “Uma pessoa

Tradução “I like chocolate” “Eu gosto de chocolate”

A informação nunca atinge um

Desenrolar a rede no tempo: Unroll

x = “João, o inverno chegou, precisamos …”

 Como fazer Palavra 1

QUAL É A LIMITAÇÃO? Palavra 1

instantes anteriores Camada de

• Cada palavra pode representar

• As RNNs superam essas

RNN = RNN1 RNN2 RNN3 RNNT

COMO APLICAMOS O ALGORITMO DE

• QUAL É A IMPLICAÇÃO DISSO QUANDO

 Gradientes dos neurônios da própria camada

RNN1 RNN2 RNN3 RNNT

 Desaparecimento ou explosão do gradiente

 Sequências longas podem possuir dependências

 As RNNs tradicionais possuem apenas memória de

 Na prática: capacidade semelhante às redes MLP

• Entendemos o funcionamento das redes

 Na próxima aula iremos conhecer alguns

ATÉ A PRÓXIMA VIDEOAULA

Você também pode gostar