Você está na página 1de 24

PROCESSAMENTO DE

LINGUAGEM NATURAL

Redes Neurais Profundas


TÓPICOS

1. Modelos Seq2Seq
2. Atenção e Autoatenção
3. Transformers
4. BERT
REDES NEURAIS PROFUNDAS

1. Recordar do Embedding
2. Modelos Seq2Seq e suas limitações
3. O mecanismo de Atenção e Autoatenção
4. As redes Transformers
WORD EMBEDDING

• Como fazer o word embedding?


• Podemos usar redes neurais artificiais

Palavra Rede neural


(código (camada de Código denso
esparso, Embedding - [1; -0,2; ...; 0,7]
one-hot) codificação)

• Modelos pré-treinados: Word2Vec, GloVe,


FASTTEXT, BERT etc.
TAREFAS EM PLN

• Após codificação das palavras, diversas tarefas podem


ser realizadas:

➢ Predição da próxima palavra em uma sequência de


texto

➢ Tradução automática

➢ Geração de resumos

➢ Classificação de textos

➢ etc.
MODELOS SEQ2SEQ

Fonte: https://www.researchgate.net/figure/Seq2seq-LSTM-structure_fig4_347217555
LIMITAÇÕES

1. Viés de contexto próximo: as últimas


palavras da sequência podem ter um peso
maior na representação gerada
2. Limite fixo no tamanho do contexto: toda a
sentença é codificada em um vetor de
dimensão fixa
3. Processamento sequencial: as palavras são
processadas em sequência, com limitação
no paralelismo do processamento
APLICAÇÃO: TRADUÇÃO

Língua portuguesa

EU COMPREI UM CARRO AZUL

I BOUGHT A BLUE CAR


Língua inglesa

A tradução exige atenção em apenas


algumas partes da sentença
MECANISMO DE ATENÇÃO

Podemos codificar a sentença em um vetor de


contexto responsável por manter as informações mais
relevantes

Fonte: Figura 24.7 – Livro Russel & Norvig (2022)


MECANISMO DE ATENÇÃO

• Ao contrário dos componentes-padrão de


uma rede neural, a atenção é, normalmente,
interpretável

• Alinhamento das palavras durante a tradução

• A atenção reduz o impacto da perda de


memória de longo prazo ao lidar com grandes
sequências de dados

• Problema: atenção melhora a memória, mas


não a computação nas RNNs
ATTENTION IS ALL YOU NEED

• Artigo publicado por Vaswani et al. em 2017


[1]
https://proceedings.n
eurips.cc/paper_files
no NIPS [1] /paper/2017/file/3f5e
e243547dee91fbd05

• Elimina a “recorrência” do modelo neural,


3c1c4a845aa-
Paper.pdf

melhorando a sua eficiência


• Adota o mecanismo de autoatenção no
modelo
• Arquitetura encoder-decoder (complexa)
• O modelo resultante é denominado
Transformers (transformador)
AUTOATENÇÃO
Fonte:
• A autoatenção, também https://arxiv.org/abs/
2006.10685
denominada atenção interna,
tem como objetivo estabelecer
as dependências entre tokens
de uma mesma sequência
(entrada):

• Interdependência e a
importância relativa entre
palavras da sequência
• Aprendizado de relações de
longo alcance
• Paralelizável
TRANSFORMERS
Fonte:
https://arxiv.org/abs/
• Modelo encoder-decoder 2006.10685

• Seq2Seq

• Aplicações:
• Classificação
• Tradução
• Geração de textos
• Processamento de vídeos
• Sequências biológicas
• etc.
ENCODER

• Proposto com seis


camadas formadas por
dois componentes:
1. Camada de
autoatenção
2. Rede alimentada
adiante
• Inclui laços residuais
Fonte: https://arxiv.org/abs/1706.03762
DECODER

• Também formado Fonte:


https://arxiv.org/abs/17
por seis camadas 06.03762

• Além dos blocos


do encoder,
utiliza um bloco
extra de atenção
(tokens gerados)
TRANSFORMERS

• Eficiência no processamento: a rede


Transformers processa a sequência em
paralelo e não de forma serial
• Flexibilidade na modelagem de relações
não-lineares: Transformers são mais
flexíveis para modelar relações não-lineares
• Introduz o mecanismo de autoatenção:
relações entrada-entrada e saída-saída
• Modelos do estado da arte usam redes
Transformers: BERT e GPT
BERT (Devlin et al. 2018)

• Bidirectional Encoder Representations from


Transformers
• Entendimento de linguagem é intrinsicamente
bidirecional
• Um decoder bidirecional
• Solução: treinar o encoder de um Transformer para
prever palavras “mascaradas”

• Mascarar pouco: treinamento lento


• Mascarar muito: pouco contexto para se aproveitar
BERT (Devlin et al. 2018)

• Além do treinamento de classificação das


máscaras, BERT tem ainda outra função objetivo,
que se chama NSP: next sentence prediction
• A ideia é que se aprenda mais sobre contexto
quando conseguimos prever adequadamente se
uma frase vem após a outra no corpus
BERT (Devlin et al. 2018)

• Detalhes de treinamento:
• Utiliza o encoder do transformer
• Self-attention
• Treinado na Wikipédia + corpus de livros
• Dois modelos principais:
• BERT-base: 12 camadas, 768d escondidas,
12 cabeças
• BERT-large: 24 camadas, 1024d
escondidas, 16 cabeças
BERT (Devlin et al. 2018)

• Como utilizar BERT na prática?


• Aprenda um classificador na última camada para
a tarefa downstream que se deseja aprender
ESTADO-DA-ARTE
Estes 3 métodos se baseiam em Transformers!

ULMfit GPT BERT GPT-2


01/2018 06/2018 10/2018 02/2019
Treinamento: Treinamento: Treinamento: Treinamento:
1 dia de GPU 240 dias de GPU 256 dias de TPU 2048 dias de TPU v3
(320-560 de GPU) (segundo uma
thread no reddit)
O QUE VIMOS?

• Modelos Seq2Seq
• Atenção e Autoatenção
• Transformers
• BERT
Próxima Videoaula
• Prática: Classificação de Textos

23
Referências
• Curso de Aprendizado Profundo
• Prof. Marcos G. Quiles (UNIFESP)

• Curso de Redes Neurais Profundas


• Prof. Rodrigo C. Barros (PUCRS)

Você também pode gostar