Transformers

Transformers
Prof. Me. Luciano Ignaczak

lignaczak@unisinos.br
Introdução
• No ano de 2017, pesquisadores do Google publicaram a
proposta de uma nova arquitetura de redes neurais. Os
pesquisadores denominaram esta arquitetura como
Transformers;
• O artigo foi intitulado “Attention Is All You Need”;
Fonte: TUNSTALL, Lewis; et al. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. 2022.
Arquitetura Seq2Seq
• Redes neurais recorrentes são aplicadas frequentemente para
mapear uma sequência de palavras em outra, tarefa utilizada em
sistemas de tradução;
• Para realizar esta tarefa é necessário usar uma arquitetura que

implemente modelos sequence-to-sequence (Seq2Seq);
Arquitetura Seq2Seq
• Um modelo Seq2Seq possui dois componentes chamados
encoder e decoder;
• A sequência de entrada é salva pelo encoder na forma de um

vetor. O encoder transmite o vetor para o decoder, o qual produz
uma saída com base na informação que possui.
Fonte: JAIN, Shashank M. Introduction to Transformer for NLP: with the Hugging Face Library and Models to Solve Problems. 2022.
Mecanismo de Atenção
• A arquitetura de RNN possui uma característica que cria uma
espécie de gargalo em relação ao vetor produzido: ele precisa
representar o processamento de toda sequência de entrada.
Caso a sequência de entrada seja muito longa, seu início pode
ser comprometido;
• Uma alternativa para isso é permitir que o decoder tenha acesso

a todos os vetores produzidos a partir de uma sequência de
entrada. É o mecanismo de atenção que torna isso possível;
• A ideia relacionada com o mecanismos de atenção é possibilitar

que o encoder produza um vetor para cada etapa, permitindo
que o decoder consiga processar toda sequência de entrada;
Mecanismo de Atenção
• O acesso a todos os vetores de saída pode resultar em uma
sequência de entrada muito grande para o decoder;
• O mecanismo de atenção possibilita que os vetores de saída

sejam priorizados pelo decoder através da atribuição de
diferentes pesos (atenção);
Transfer Learning
Transformer
Fonte: VASWANI, Ashish; et al. Attention is All you Need. 2017.

Transformer
• A arquitetura Transformer consiste dos mesmos componentes:
• Encoder: Converte uma sequência de tokens em embeddings vectors;
• Decoder: Produz uma sequência de tokens como saída, um token de
cada vez;
• Transformers, normalmente, podem ser classificados como:

• Encoder-only: modelos que convertem a sequência de texto em
representação numérica. Estes modelos são adequados para tarefas de
classificação de texto e reconhecimento de entidades;
• Decoder-only: modelos que podem realizar complementações em uma
sequência de tokens (frase) de entrada. Estes modelos podem ser usados
em tarefas Fill-Mask e Natural Language Generation;
• Encoder-decoder: modelos usados para mapear uma sequência de texto
em outra. Estes modelos podem ser usados para tarefas de tradução e
sumarização.
Encoder – Input Embeddings
• A primeira atividade do componente é transformar uma
sequência de palavras em vetores (embeddings). Desta forma,
cada palavra será representada como um vetor.
• Importante lembrar que o processo de treinamento de uma rede

neural é baseado em valores;
Encoder – Multi-headed Attention
• O sistema é composto de múltiplos módulos de “self-attention”
que possuem capacidade de capturar diferentes formas de
atenção;
• Através do self-attention, a arquitetura consegue associar cada

palavra da sequência de entrada com outras da mesma
sentença;
Hugging Face
• Hugging Face é uma empresa construída sob o princípio do uso
de software e dados abertos;
• A empresa busca a democratização de modelos pré-treinados

baseados na arquitetura transformer;
• O Hugging Face fornece uma camada de abstração no formato

de uma biblioteca para implementação de transformers de
forma fácil;
• O portal do Hugging Face funciona como um hub para

desenvolvedores de modelos publicarem seus modelos pré-
treinados para serem consumidos pelos usuários para a criação
de novas aplicações;
Fonte: AIN, Shashank M. Introduction to Transformer for NLP: with the Hugging Face Library and Models to Solve Problems. 2022.

Transformers

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Transformers

Enviado por

Direitos autorais:

Formatos disponíveis

Transformers

Prof. Me. Luciano Ignaczak

• O artigo foi intitulado “Attention Is All You Need”;

• Para realizar esta tarefa é necessário usar uma arquitetura que

• A sequência de entrada é salva pelo encoder na forma de um

• Uma alternativa para isso é permitir que o decoder tenha acesso

• A ideia relacionada com o mecanismos de atenção é possibilitar

• O mecanismo de atenção possibilita que os vetores de saída

Fonte: VASWANI, Ashish; et al. Attention is All you Need. 2017.

• Transformers, normalmente, podem ser classificados como:

• Importante lembrar que o processo de treinamento de uma rede

• Através do self-attention, a arquitetura consegue associar cada

• A empresa busca a democratização de modelos pré-treinados

• O Hugging Face fornece uma camada de abstração no formato

• O portal do Hugging Face funciona como um hub para

Você também pode gostar