Processamento de Linguagem Natural - Aula 17 - Redes Neurais Profundas

PROCESSAMENTO DE
LINGUAGEM NATURAL
Redes Neurais Profundas

TÓPICOS
1. Modelos Seq2Seq
2. Atenção e Autoatenção
3. Transformers
4. BERT
REDES NEURAIS PROFUNDAS
1. Recordar do Embedding
2. Modelos Seq2Seq e suas limitações
3. O mecanismo de Atenção e Autoatenção
4. As redes Transformers
WORD EMBEDDING
• Como fazer o word embedding?

• Podemos usar redes neurais artificiais
Palavra Rede neural

(código (camada de Código denso
esparso, Embedding - [1; -0,2; ...; 0,7]
one-hot) codificação)
• Modelos pré-treinados: Word2Vec, GloVe,

FASTTEXT, BERT etc.
TAREFAS EM PLN
• Após codificação das palavras, diversas tarefas podem

ser realizadas:
➢ Predição da próxima palavra em uma sequência de

texto
➢ Tradução automática
➢ Geração de resumos
➢ Classificação de textos
➢ etc.
MODELOS SEQ2SEQ
Fonte: https://www.researchgate.net/figure/Seq2seq-LSTM-structure_fig4_347217555
LIMITAÇÕES
1. Viés de contexto próximo: as últimas

palavras da sequência podem ter um peso
maior na representação gerada
2. Limite fixo no tamanho do contexto: toda a
sentença é codificada em um vetor de
dimensão fixa
3. Processamento sequencial: as palavras são
processadas em sequência, com limitação
no paralelismo do processamento
APLICAÇÃO: TRADUÇÃO
Língua portuguesa
EU COMPREI UM CARRO AZUL
I BOUGHT A BLUE CAR

Língua inglesa
A tradução exige atenção em apenas

algumas partes da sentença
MECANISMO DE ATENÇÃO
Podemos codificar a sentença em um vetor de

contexto responsável por manter as informações mais
relevantes
Fonte: Figura 24.7 – Livro Russel & Norvig (2022)

MECANISMO DE ATENÇÃO
• Ao contrário dos componentes-padrão de

uma rede neural, a atenção é, normalmente,
interpretável
• Alinhamento das palavras durante a tradução
• A atenção reduz o impacto da perda de

memória de longo prazo ao lidar com grandes
sequências de dados
• Problema: atenção melhora a memória, mas

não a computação nas RNNs
ATTENTION IS ALL YOU NEED
• Artigo publicado por Vaswani et al. em 2017

[1]
https://proceedings.n
eurips.cc/paper_files
no NIPS [1] /paper/2017/file/3f5e
e243547dee91fbd05
• Elimina a “recorrência” do modelo neural,

3c1c4a845aa-
Paper.pdf
melhorando a sua eficiência

• Adota o mecanismo de autoatenção no
modelo
• Arquitetura encoder-decoder (complexa)
• O modelo resultante é denominado
Transformers (transformador)
AUTOATENÇÃO
Fonte:
• A autoatenção, também https://arxiv.org/abs/
2006.10685
denominada atenção interna,
tem como objetivo estabelecer
as dependências entre tokens
de uma mesma sequência
(entrada):
• Interdependência e a
importância relativa entre
palavras da sequência
• Aprendizado de relações de
longo alcance
• Paralelizável
TRANSFORMERS
Fonte:
https://arxiv.org/abs/
• Modelo encoder-decoder 2006.10685
• Seq2Seq
• Aplicações:
• Classificação
• Tradução
• Geração de textos
• Processamento de vídeos
• Sequências biológicas
• etc.
ENCODER
• Proposto com seis

camadas formadas por
dois componentes:
1. Camada de
autoatenção
2. Rede alimentada
adiante
• Inclui laços residuais
Fonte: https://arxiv.org/abs/1706.03762
DECODER
• Também formado Fonte:

https://arxiv.org/abs/17
por seis camadas 06.03762
• Além dos blocos

do encoder,
utiliza um bloco
extra de atenção
(tokens gerados)
TRANSFORMERS
• Eficiência no processamento: a rede

Transformers processa a sequência em
paralelo e não de forma serial
• Flexibilidade na modelagem de relações
não-lineares: Transformers são mais
flexíveis para modelar relações não-lineares
• Introduz o mecanismo de autoatenção:
relações entrada-entrada e saída-saída
• Modelos do estado da arte usam redes
Transformers: BERT e GPT
BERT (Devlin et al. 2018)
• Bidirectional Encoder Representations from

Transformers
• Entendimento de linguagem é intrinsicamente
bidirecional
• Um decoder bidirecional
• Solução: treinar o encoder de um Transformer para
prever palavras “mascaradas”
• Mascarar pouco: treinamento lento

• Mascarar muito: pouco contexto para se aproveitar
• Além do treinamento de classificação das

máscaras, BERT tem ainda outra função objetivo,
que se chama NSP: next sentence prediction
• A ideia é que se aprenda mais sobre contexto
quando conseguimos prever adequadamente se
uma frase vem após a outra no corpus
• Detalhes de treinamento:
• Utiliza o encoder do transformer
• Self-attention
• Treinado na Wikipédia + corpus de livros
• Dois modelos principais:
• BERT-base: 12 camadas, 768d escondidas,
12 cabeças
• BERT-large: 24 camadas, 1024d
escondidas, 16 cabeças
• Como utilizar BERT na prática?

• Aprenda um classificador na última camada para
a tarefa downstream que se deseja aprender
ESTADO-DA-ARTE
Estes 3 métodos se baseiam em Transformers!
ULMfit GPT BERT GPT-2

01/2018 06/2018 10/2018 02/2019
Treinamento: Treinamento: Treinamento: Treinamento:
1 dia de GPU 240 dias de GPU 256 dias de TPU 2048 dias de TPU v3
(320-560 de GPU) (segundo uma
thread no reddit)
O QUE VIMOS?
• Modelos Seq2Seq
• Atenção e Autoatenção
• Transformers
• BERT
Próxima Videoaula
• Prática: Classificação de Textos
23
Referências
• Curso de Aprendizado Profundo
• Prof. Marcos G. Quiles (UNIFESP)
• Curso de Redes Neurais Profundas

• Prof. Rodrigo C. Barros (PUCRS)

Processamento de Linguagem Natural - Aula 17 - Redes Neurais Profundas

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Processamento de Linguagem Natural - Aula 17 - Redes Neurais Profundas

Enviado por

Direitos autorais:

Formatos disponíveis

PROCESSAMENTO DE

Redes Neurais Profundas

• Como fazer o word embedding?

Palavra Rede neural

• Modelos pré-treinados: Word2Vec, GloVe,

• Após codificação das palavras, diversas tarefas podem

➢ Predição da próxima palavra em uma sequência de

1. Viés de contexto próximo: as últimas

EU COMPREI UM CARRO AZUL

I BOUGHT A BLUE CAR

A tradução exige atenção em apenas

Podemos codificar a sentença em um vetor de

Fonte: Figura 24.7 – Livro Russel & Norvig (2022)

• Ao contrário dos componentes-padrão de

• Alinhamento das palavras durante a tradução

• A atenção reduz o impacto da perda de

• Problema: atenção melhora a memória, mas

• Artigo publicado por Vaswani et al. em 2017

• Elimina a “recorrência” do modelo neural,

melhorando a sua eficiência

• Proposto com seis

• Também formado Fonte:

• Além dos blocos

• Eficiência no processamento: a rede

• Bidirectional Encoder Representations from

• Mascarar pouco: treinamento lento

• Além do treinamento de classificação das

• Como utilizar BERT na prática?

ULMfit GPT BERT GPT-2

• Curso de Redes Neurais Profundas

Você também pode gostar