Escolar Documentos
Profissional Documentos
Cultura Documentos
Bittencourt Junior
AI Engineering at Deep Learning
Brasil
joseadenaldo@gmail.com
Mecanismos de
Atenção
Setembro de 2018
O que é Neural Machine Translation
Fonte: http://www.meta-net.eu/events/meta-forum-2016/slides/09_sennrich.pdf
NMT: A maior estória de sucesso de NLP com Deep Learning
Atenção
seq2seq: problema do gargalo/bottleneck problem
seq2seq: problema do gargalo/bottleneck problem
• Atenção pode ser aplicada em várias arquiteturas (não apenas seq2seq) para
várias tarefas diferentes.
Definição mais geral de Atenção: Dado um conjunto de valores e uma
consulta, a atenção é uma técnica para calcular uma soma ponderada dos
valores, dependente da consulta.
• Podemos dizer que a consulta presta atenção nos valores.
• Por exemplo, no modelo seq2seq + atenção, cada hidden state do decoder
presta atenção nos hidden states do encoder.
Atenção: técnica geral de Deep Learning
Intuição:
• A soma ponderada é um resumo seletivo das informações contidas nos valores,
em que a consulta determina quais valores devem ser o foco.
• Atenção é uma maneira de obter uma representação de tamanho fixo de um
conjunto arbitrário de representações (os valores), dependente de alguma
outra representação (a consulta).
Variantes de mecanismos de Atenção
• Atenção multiplicativa:
- é uma matriz de pesos.
Variantes de mecanismos de Atenção
• Atenção aditiva:
- são matrizes de pesos.
- é um vetor de peso
Self-attention - Mecanismos de Atenção
Justificativa:
▪ Custo da avaliação de redação por aluno no ENEM é de R$15,88 (no ENEM de
2015), com 6,54 milhões de redações, com custo total de 104 milhões.
▪ Milhões de estudantes que se preparam para o ENEM não tem a oportunidade de
receber uma orientação sobre sua escrita.
▪ Tempo gasto para correção de redação é muito elevado.
Solução:
• Sistema que utiliza redes neurais profundas para realizar a avaliação automática
de redações no modelo do ENEM. Fornece a nota da redação para o aluno.
EssAI – Exemplo Prático (Equações)
(Escores de atenção, e)
(Distribuição de atenção)
(Saída de atenção, a)
(Saída da Rede)
• Baseado no mecanismo de self-attention descrito em Attention-based lstm for aspect-
level sentiment classification. Yequan Wang, Minlie Huang, Li Zhao, and Xiaoyan Zhu.
2016.
EssAI – Exemplo Prático (Arquitetura)
Frases associadas a sua distribuição de atenção, alfa. Maiores pesos: quarta e quinta.
EssAI – Exemplo Prático
• Seq2seq.
• Tarefa: tradução automática com corpus paralelo.
• Prever cada palavra traduzida.
• A função custo / erro final é um erro padrão
de entropia cruzada no topo de um classificador
softmax.
• Vamos definir novas camadas de atenção para
os Transformers
Transformer: Visão Geral
Transformer: Dot Product Attention