Você está na página 1de 12

Transformers

Prof. Me. Luciano Ignaczak


lignaczak@unisinos.br
Introdução
• No ano de 2017, pesquisadores do Google publicaram a
proposta de uma nova arquitetura de redes neurais. Os
pesquisadores denominaram esta arquitetura como
Transformers;

• O artigo foi intitulado “Attention Is All You Need”;

Fonte: TUNSTALL, Lewis; et al. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. 2022.
Arquitetura Seq2Seq
• Redes neurais recorrentes são aplicadas frequentemente para
mapear uma sequência de palavras em outra, tarefa utilizada em
sistemas de tradução;

• Para realizar esta tarefa é necessário usar uma arquitetura que


implemente modelos sequence-to-sequence (Seq2Seq);

Fonte: TUNSTALL, Lewis; et al. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. 2022.
Arquitetura Seq2Seq
• Um modelo Seq2Seq possui dois componentes chamados
encoder e decoder;

• A sequência de entrada é salva pelo encoder na forma de um


vetor. O encoder transmite o vetor para o decoder, o qual produz
uma saída com base na informação que possui.

Fonte: JAIN, Shashank M. Introduction to Transformer for NLP: with the Hugging Face Library and Models to Solve Problems. 2022.
Mecanismo de Atenção
• A arquitetura de RNN possui uma característica que cria uma
espécie de gargalo em relação ao vetor produzido: ele precisa
representar o processamento de toda sequência de entrada.
Caso a sequência de entrada seja muito longa, seu início pode
ser comprometido;

• Uma alternativa para isso é permitir que o decoder tenha acesso


a todos os vetores produzidos a partir de uma sequência de
entrada. É o mecanismo de atenção que torna isso possível;

• A ideia relacionada com o mecanismos de atenção é possibilitar


que o encoder produza um vetor para cada etapa, permitindo
que o decoder consiga processar toda sequência de entrada;
Fonte: TUNSTALL, Lewis; et al. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. 2022.
Mecanismo de Atenção
• O acesso a todos os vetores de saída pode resultar em uma
sequência de entrada muito grande para o decoder;

• O mecanismo de atenção possibilita que os vetores de saída


sejam priorizados pelo decoder através da atribuição de
diferentes pesos (atenção);

Fonte: TUNSTALL, Lewis; et al. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. 2022.
Transfer Learning

Fonte: TUNSTALL, Lewis; et al. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. 2022.
Transformer

Fonte: VASWANI, Ashish; et al. Attention is All you Need. 2017.


Transformer
• A arquitetura Transformer consiste dos mesmos componentes:
• Encoder: Converte uma sequência de tokens em embeddings vectors;
• Decoder: Produz uma sequência de tokens como saída, um token de
cada vez;

• Transformers, normalmente, podem ser classificados como:


• Encoder-only: modelos que convertem a sequência de texto em
representação numérica. Estes modelos são adequados para tarefas de
classificação de texto e reconhecimento de entidades;
• Decoder-only: modelos que podem realizar complementações em uma
sequência de tokens (frase) de entrada. Estes modelos podem ser usados
em tarefas Fill-Mask e Natural Language Generation;
• Encoder-decoder: modelos usados para mapear uma sequência de texto
em outra. Estes modelos podem ser usados para tarefas de tradução e
sumarização.
Fonte: TUNSTALL, Lewis; et al. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. 2022.
Encoder – Input Embeddings
• A primeira atividade do componente é transformar uma
sequência de palavras em vetores (embeddings). Desta forma,
cada palavra será representada como um vetor.

• Importante lembrar que o processo de treinamento de uma rede


neural é baseado em valores;

Fonte: JAIN, Shashank M. Introduction to Transformer for NLP: with the Hugging Face Library and Models to Solve Problems. 2022.
Encoder – Multi-headed Attention
• O sistema é composto de múltiplos módulos de “self-attention”
que possuem capacidade de capturar diferentes formas de
atenção;

• Através do self-attention, a arquitetura consegue associar cada


palavra da sequência de entrada com outras da mesma
sentença;

Fonte: JAIN, Shashank M. Introduction to Transformer for NLP: with the Hugging Face Library and Models to Solve Problems. 2022.
Hugging Face
• Hugging Face é uma empresa construída sob o princípio do uso
de software e dados abertos;

• A empresa busca a democratização de modelos pré-treinados


baseados na arquitetura transformer;

• O Hugging Face fornece uma camada de abstração no formato


de uma biblioteca para implementação de transformers de
forma fácil;

• O portal do Hugging Face funciona como um hub para


desenvolvedores de modelos publicarem seus modelos pré-
treinados para serem consumidos pelos usuários para a criação
de novas aplicações;
Fonte: AIN, Shashank M. Introduction to Transformer for NLP: with the Hugging Face Library and Models to Solve Problems. 2022.

Você também pode gostar