Applied Generative Ai For Beginners-1

Machine Translated by Google
Aplicado
IA generativa para
Iniciantes
Conhecimento prático sobre modelos de difusão,
ChatGPT e outros LLMs
-
Akshay Kulkarni
Adarsha Shivananda
Anoosh Kulkarni
Dilip Gudivada
IA generativa aplicada para

Iniciantes
Conhecimento prático sobre difusão
Modelos, ChatGPT e outros LLMs
Akshay Kulkarni
Adarsha Shivananda
Anoosh Kulkarni
Dilip Gudivada
IA generativa aplicada para iniciantes: conhecimento prático sobre modelos de difusão,

ChatGPT e outros LLMs
Akshay Kulkarni Anoosh Kulkarni

Bangalore, Karnataka, Índia Bangalore, Karnataka, Índia
Adarsha Shivananda Dilip Gudivada

Hosanagara, Karnataka, Índia Bangalore, Índia
ISBN-13 (pbk): 978-1-4842-9993-7 https:// ISBN-13 (eletrônico): 978-1-4842-9994-4

doi.org/10.1007/978-1-4842-9994-4
Copyright © 2023 por Akshay Kulkarni, Adarsha Shivananda, Anoosh Kulkarni,

Dilip Gudivada
Este trabalho está sujeito a direitos autorais. Todos os direitos são reservados à Editora, quer se trate da totalidade ou de parte do
material, especificamente os direitos de tradução, reimpressão, reutilização de ilustrações, recitação, transmissão, reprodução
em microfilmes ou de qualquer outra forma física, e transmissão ou armazenamento de informações e recuperação, adaptação
eletrônica, software de computador ou por metodologia semelhante ou diferente agora conhecida ou desenvolvida posteriormente.
Nomes, logotipos e imagens de marcas registradas podem aparecer neste livro. Em vez de usar um símbolo de marca registrada em
cada ocorrência de um nome, logotipo ou imagem de marca registrada, usamos os nomes, logotipos e imagens apenas de forma
editorial e para o benefício do proprietário da marca registrada, sem intenção de violar a marca registrada.
O uso nesta publicação de nomes comerciais, marcas registradas, marcas de serviço e termos semelhantes, mesmo que não sejam
identificados como tal, não deve ser tomado como uma expressão de opinião sobre se estão ou não sujeitos a direitos de
propriedade.
Embora os conselhos e as informações contidas neste livro sejam considerados verdadeiros e precisos na data de publicação, nem os
autores, nem os editores, nem a editora podem aceitar qualquer responsabilidade legal por quaisquer erros ou omissões que possam
ser cometidos. O editor não oferece nenhuma garantia, expressa ou implícita, com relação ao material aqui contido.
Diretor administrativo, Apress Media LLC: Welmoed Spahr

Editor de aquisições: Celestin Suresh John
Editora de Desenvolvimento: Laura Berendson
Assistente Editorial: Gryffin Winkler
Capa desenhada por eStudioCalamar
Imagem da capa desenhada por Scott Webb no unsplash
Distribuído ao comércio de livros em todo o mundo pela Springer Science+Business Media New York, 1 New York Plaza, Suite 4600,
New York, NY 10004-1562, EUA. Telefone 1-800-SPRINGER, fax (201) 348-4505, pedidos por e-mail-ny@
springer-sbm.com ou visite www.springeronline.com. Apress Media, LLC é uma LLC da Califórnia e o único membro (proprietário) é
Springer Science + Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc é uma corporação de Delaware .
Para obter informações sobre traduções, envie um e-mail para booktranslations@springernature.com; para reimpressão,
brochura ou direitos de áudio, envie um e-mail para bookpermissions@springernature.com.
Os títulos da Apress podem ser adquiridos em grandes quantidades para uso acadêmico, corporativo ou promocional. Versões e licenças
de e-books também estão disponíveis para a maioria dos títulos. Para obter mais informações, consulte nossa página de vendas em massa
de impressão e e-books em http://www.apress.com/bulk-sales.
Qualquer código-fonte ou outro material suplementar referenciado pelo autor neste livro está disponível para leitores no GitHub.
Para informações mais detalhadas, visite https://www.apress.com/gp/services/
Código fonte.
O papel neste produto é reciclável

Para nossas famílias

Índice
Sobre os Autoresÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿxi
Sobre o Revisor Técnico ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ xiii
Introduçãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ
Capítulo 1: Introdução à IA Gerativa ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 1
Então, o que é IA generativa? ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ 2
Componentes da IAÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 3
Domínios de IA Gerativaÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 4
Geração de textoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 4
Geração de imagem ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 4
Geração de Áudio ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 5
Geração de Vídeo ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 5
IA generativa: jogadores atuais e seus modelosÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 9
Aplicações Gerativas de IAÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 11
Conclusão ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 13
Capítulo 2: Evolução de Redes Neurais para Grandes Modelos de Linguagem ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 15
Processamento de Linguagem Natural ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 16
Tokenização ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 17
N-gramas ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 17
Representação e incorporações de linguagemÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 19
Modelos Probabilísticosÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 20
Modelos de linguagem baseados em redes neuraisÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 21
Redes Neurais Recorrentes (RNNs)ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 22
Memória Longa de Curto Prazo (LSTM) ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 23
Unidade Recorrente Fechada (GRU) ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿ 24
Redes Codificador-Decodificadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 25
v
Índice
Transformadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 27
Modelos de Grandes Linguagens (LLMs)ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 29
Capítulo 3: LLMs e Transformadoresÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 33
O poder dos modelos de linguagemÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 33
Arquitetura do Transformador ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ 34
Motivação para o Transformadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 35
Arquiteturaÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 35
Arquitetura do codificador-decodificadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 36
Atençãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 39
Redes feed-forward posicionadas ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 47
Vantagens e limitações da arquitetura do transformadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ 51
Capítulo 4: A arquitetura ChatGPT: uma exploração aprofundada do OpenAI

Modelo de Linguagem Conversacionalÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿ 55
A evolução dos modelos GPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ 56
A arquitetura do transformador: uma recapitulaçãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 57
Arquitetura do ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿ 59
Pré-treinamento e ajuste fino no ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 70
Pré-treinamento: aprendendo padrões de linguagemÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 70
Ajuste Fino: Adaptação a Tarefas Específicasÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 71
Aprendizagem Contínua e Melhoria Iterativa ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 71
Incorporações contextuais no ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 71
Geração de resposta no ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 72
Lidando com preconceitos e considerações éticasÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 73
Lidando com preconceitos em modelos de linguagemÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 73
Os esforços da OpenAI para mitigar preconceitos ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 73
Pontos Fortes e Limitaçõesÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ 75
Pontos fortes do ChatGPT ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿ 75
Limitações do ChatGPT ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿ 76
vi
Índice
Capítulo 5: Google Bard e além ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 79
A Arquitetura do Transformador ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 80
Elevando o Transformador: O Gênio do Google Bard ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 80
Fusão de texto e código do Google Bardÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 82
Pontos fortes e fracos do Google Bard ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 83
Pontos fortesÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 83
Fraquezas ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 84
Diferença entre ChatGPT e Google Bardÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 84
Cláudio 2ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 86
Principais características de Claude 2ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ 86
Comparando Claude 2 com outros chatbots de IA ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 87
A Filosofia do Design Centrado no Ser Humano de Claude ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 88
Explorando as proficiências de conversação de IA de Claudeÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 89
IA Constitucionalÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 89
Cláudio 2 vs. GPT 3.5ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 92
Outros grandes modelos de linguagem ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 93
Falcon AIÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 93
LLaMa 2ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 95
Dolly 2ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 98
Capítulo 6: Implementar LLMs usando Sklearn ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 101
Instale o Scikit-LLM e configureÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿ 102
Obtenha uma chave de API OpenAIÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿ 103
Zero-Shot GPTClassificadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿ 103
E se você não tiver dados rotulados? ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 109
Classificação de texto multirrótulo Zero-Shotÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 111
Implementação ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 111
E se você não tiver dados rotulados? ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 112
vii
Índice
Vetorização de textoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 113
Resumo de texto ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 114
Conclusão ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 115
Capítulo 7: LLMs para Empresas e LLMOps ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 117
API LLM generalizada privada ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿ 118
Estratégia de design para habilitar LLMs para empresas: aprendizagem em contexto ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿ 119
Pré-processamento/incorporação de dados ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 121
Construção/Recuperação imediata ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 123
Ajuste Fino ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 126
Pilha de tecnologiaÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 128
Gen AI/LLM Testbed ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 128
Fontes de dados ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 129
Processamento de Dadosÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 129
Aproveitando Embeddings para Enterprise LLMsÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 130
Bancos de dados de vetores: acelerando LLMs empresariais com pesquisa semânticaÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 130
APIs LLM: capacitando recursos de linguagem empresarial ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿ 130
LLMOps ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
131 O que é LLMOps?ÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿ 131 Por
que LLMOps?ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 133 O
que é uma plataforma LLMOps? ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 134 Componentes
de tecnologia LLMOpsÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 135 Monitoramento de modelos de
IA generativosÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 136 modelos proprietários de IA
generativa ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 139 modelos de código aberto com licenças
permissivasÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 140 Playground para seleção de modelo
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 141
Métricas de Avaliaçãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿ 141
Validando Saídas LLMÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿ 144
Desafios enfrentados ao implantar LLMs ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 146
viii
Índice
Implementaçãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 148
Usando a API OpenAI com Python ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 148
Aproveitando o serviço Azure OpenAIÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 153
Capítulo 8: Modelo de Difusão e IA Gerativa para Imagensÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 155
Autoencoders Variacionais (VAEs) ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 156
Redes Adversariais Gerativas (GANs)ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 157
Modelos de difusão ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 158
Tipos de modelos de difusão ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 160
Arquiteturaÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 162
A tecnologia por trás do DALL-E 2ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿ 165
Parte Superior: Processo de Treinamento CLIP ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 167
Parte Inferior: Processo de Geração de Texto para Imagem ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 168
A tecnologia por trás da difusão estávelÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 168
Modelo de Difusão Latente (LDM) ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 169
Benefícios e Significânciaÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 170
A tecnologia por trás do Midjourney ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 170
Redes Adversariais Gerativas (GANs)ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 170
Síntese de texto para imagem com GANs ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 171
GANs condicionais ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 171
Processo de Treinamento ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 171
Funções de perda e otimizaçãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 171
Mecanismos de atençãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿ 172
Aumento e Pré-processamento de Dados ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 172
Benefícios e Aplicaçõesÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 172
Comparação entre DALL-E 2, difusão estável e meio de jornada ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 172
Aplicações ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 174
ix
Índice
Capítulo 9: Casos de uso do ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 179
Negócios e Atendimento ao Cliente ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 179
Criação de Conteúdo e Marketing ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 181
Desenvolvimento de Software e Suporte Técnicoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 183
Entrada e Análise de Dados ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿ 185
Informações médicas e de saúdeÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 187
Pesquisa e Análise de Mercadoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿ 189
Escrita Criativa e Contação de Histórias ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 191
Educação e Aprendizagem ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿ 193
Jurídico e Complianceÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 194
RH e Recrutamentoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 196
Assistente Pessoal e Produtividadeÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 198
Exemplosÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 200
Índiceÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 207
x
sobre os autores
Akshay Kulkarni é um evangelista de IA e aprendizado de máquina
e líder de TI. Ele ajudou inúmeras empresas da Fortune 500 e
empresas globais no avanço de transformações estratégicas usando IA e
ciência de dados. Ele é Google Developer Expert, autor e palestrante
regular nas principais conferências de IA e ciência de dados (incluindo
Strata, O'Reilly AI Conf e GIDS).
Ele também é membro visitante do corpo docente de alguns dos
principais institutos de pós-graduação da Índia. Em 2019, ele foi apresentado
como um dos 40 maiores cientistas de dados com menos de 40 anos na
Índia. Ele gosta de ler, escrever, programar e construir produtos de IA de última geração.
Adarsha Shivananda é líder em ciência de dados e IA generativa.
Atualmente, ele está focado na criação de recursos MLOps e LLMOps
de classe mundial para garantir a entrega contínua de valor usando IA. Ele
pretende formar um grupo de cientistas de dados excepcionais dentro e
fora da organização para resolver problemas por meio de programas de
treinamento e quer estar sempre à frente da curva. Ele trabalhou nos
setores farmacêutico, de saúde, CPG, varejo e marketing. Ele mora em
Bangalore e adora ler e ensinar ciência de dados.
Anoosh Kulkarni é cientista de dados e engenheiro de MLOps. Ele trabalhou
com várias empresas globais em vários domínios, resolvendo seus problemas
de negócios usando aprendizado de máquina e IA. Ele trabalhou em um
dos principais gigantes do comércio eletrônico nos Emirados Árabes
Unidos, onde se concentrou na construção de sistemas de recomendação
de última geração e aprendizado profundo.
motores de busca baseados. Ele é apaixonado por orientar e orientar
pessoas em sua jornada de ciência de dados. Ele frequentemente lidera
encontros de ciência de dados/aprendizado de máquina, ajudando aspirantes a cientistas de dados a traçar seu
roteiro de carreira.
XI
sobre os autores
Dilip Gudivada é um arquiteto de dados sênior experiente, com

13 anos de experiência em serviços em nuvem, big data e
engenharia de dados. Dilip tem uma sólida experiência na concepção
e desenvolvimento de soluções ETL, concentrando-se
especificamente na construção de data lakes robustos na
plataforma de nuvem Azure. Aproveitando tecnologias como Azure
Databricks, Data Factory, Data Lake Storage, PySpark, Synapse
e Log Analytics, a Dilip ajudou as organizações a estabelecer
soluções de data lake escalonáveis e eficientes no Azure. Ele tem
um profundo conhecimento de serviços em nuvem e um histórico
de entrega de projetos de engenharia de dados bem-sucedidos.
xii
Sobre o Revisor Técnico

Prajwal é um cientista aplicado líder e consultor na área
de IA generativa. Ele é apaixonado por construir
aplicações de IA a serviço da humanidade.
xiii
Introdução
Bem-vindo à IA generativa aplicada para iniciantes: conhecimento prático sobre modelos de

difusão, ChatGPT e outros LLMs. Nestas páginas, você está prestes a embarcar em uma jornada
emocionante pelo mundo da inteligência artificial (IA) generativa. Este livro serve como um guia
completo que não apenas revela as complexidades da IA generativa, mas também fornece o
conhecimento e as habilidades para implementá-la.
Nos últimos anos, a IA generativa emergiu como uma potência de inovação, remodelando
o cenário tecnológico e redefinindo os limites do que as máquinas podem alcançar. Na sua
essência, a IA generativa capacita sistemas artificiais para compreender e gerar linguagem
humana com notável fluência e criatividade. À medida que nos aprofundamos nesse cenário
cativante, você obterá uma base teórica e insights práticos sobre esse campo de ponta.
O que você descobrirá

Ao longo dos capítulos deste livro, você
• Construir bases sólidas: Desenvolva uma compreensão sólida dos princípios fundamentais
que impulsionam as capacidades da IA generativa, permitindo-lhe compreender
o seu funcionamento interno.
• Explore arquiteturas de ponta: examine a arquitetura de

modelos de linguagem grande (LLMs) e transformadores, incluindo modelos
renomados como ChatGPT e Google Bard, para entender como esses
modelos revolucionaram a IA.
• Domine implementações práticas: adquira habilidades práticas para integrar

IA generativa em seus projetos, com foco em soluções de nível
empresarial e técnicas de ajuste fino que permitem adaptar a IA às suas
necessidades específicas.
xv
Introdução
• Opere com Excelência: Descubra LLMOps, o operacional

espinha dorsal do gerenciamento de modelos generativos de IA, garantindo
eficiência, confiabilidade e segurança em suas implantações de IA.
• Testemunhe casos de uso do mundo real: explore como a IA é generativa

revolucionando diversos domínios, desde negócios e saúde até redação criativa e
conformidade legal, por meio de uma rica variedade de casos de uso do mundo real.
xvi
CAPÍTULO 1
Introdução à IA generativa
Você já imaginou que simplesmente imaginando algo e digitando, uma imagem ou vídeo
poderia ser gerado? Quão fascinante é isso? Este conceito, antes relegado ao domínio da
ficção científica, tornou-se uma realidade tangível no nosso mundo moderno. A ideia de que
os nossos pensamentos e palavras podem ser transformados em conteúdo visual não é
apenas cativante, mas também um testemunho da inovação e criatividade humanas.
Figura 1-1. A imagem gerada por máquina com base na entrada de texto
Mesmo como cientistas de dados, muitos de nós nunca previmos que a IA poderia chegar
a um ponto em que pudesse gerar texto para um caso de uso específico. As dificuldades que
enfrentamos para escrever código ou as inúmeras horas gastas pesquisando no Google a solução
certa já foram desafios comuns. No entanto, o panorama tecnológico mudou drasticamente e
essas tarefas laboriosas tornaram-se relíquias do passado.
1
© Akshay Kulkarni, Adarsha Shivananda, Anoosh Kulkarni, Dilip Gudivada 2023
A. Kulkarni et al., IA generativa aplicada para iniciantes, https://doi.org/10.1007/978-1-4842-9994-4_1
Capítulo 1 Introdução à IA Generativa
Como isso se tornou possível? A resposta está nos avanços inovadores em

aprendizado profundo e processamento de linguagem natural (PNL). Estes saltos
tecnológicos abriram caminho para a IA generativa, um campo que aproveita o poder dos
algoritmos para traduzir pensamentos em representações visuais ou automatizar a criação de
códigos complexos. Graças a estes desenvolvimentos, vivemos agora um futuro onde a
imaginação e a inovação se entrelaçam, transformando o que antes era impensável em realidade
quotidiana.
Então, o que é IA generativa?

IA generativa refere-se a um ramo da inteligência artificial que se concentra na criação de modelos e
algoritmos capazes de gerar conteúdos novos e originais, como imagens, textos, músicas e até vídeos.
Ao contrário dos modelos tradicionais de IA que são treinados para executar tarefas específicas, os
modelos generativos de IA visam aprender e imitar padrões de dados existentes para gerar
resultados novos e únicos.
A IA generativa tem uma ampla gama de aplicações. Por exemplo, na visão
computacional, os modelos generativos podem gerar imagens realistas, criar variações de
imagens existentes ou até mesmo completar partes faltantes de uma imagem. No processamento
de linguagem natural, modelos generativos podem ser usados para tradução de idiomas, síntese de
textos ou até mesmo para criar agentes conversacionais que produzam respostas semelhantes
às humanas. Além desses exemplos, a IA generativa pode realizar geração de arte, aumento de
dados e até mesmo geração de imagens médicas sintéticas para pesquisa e diagnóstico. É uma
ferramenta poderosa e criativa que nos permite explorar os limites do que é possível na visão computacional.
No entanto, vale a pena notar que a IA generativa também levanta questões éticas. A capacidade
de gerar conteúdos falsos realistas e convincentes pode ser utilizada indevidamente para fins maliciosos,
como a criação de deepfakes ou a difusão de desinformação. Como resultado, há investigação e
desenvolvimento contínuos de técnicas para detectar e mitigar os potenciais impactos negativos da
IA generativa.
No geral, a IA generativa é uma grande promessa para várias aplicações práticas e criativas e para
a geração de conteúdo novo e exclusivo. Continua a ser uma área activa de investigação e
desenvolvimento, ultrapassando os limites do que as máquinas podem criar e aumentando a criatividade
humana de formas novas e excitantes.
2
Componentes de IA
• Inteligência Artificial (IA): É a disciplina mais ampla do aprendizado de máquina para
executar tarefas que normalmente exigiriam inteligência humana.
• Aprendizado de máquina (ML): um subconjunto de IA, ML envolve algoritmos
que permitem que os computadores aprendam com os dados, em vez de serem
explicitamente programados para isso.
• Aprendizado profundo (DL): um subconjunto especializado de ML, aprendizado profundo
envolve redes neurais com três ou mais camadas que podem analisar vários fatores de
um conjunto de dados.
• IA generativa: um subconjunto avançado de IA e DL, IA generativa
concentra-se na criação de resultados novos e exclusivos. Vai além do escopo da
simples análise de dados para fazer novas criações com base em padrões aprendidos.
A Figura 1-2 explica como a IA generativa é um componente da IA.
Figura 1-2. IA e seus componentes
3
Domínios de IA Generativa
Vamos nos aprofundar nos domínios da IA generativa em detalhes, incluindo o que é, como funciona e
algumas aplicações práticas.
Geração de texto
• O que é: a geração de texto envolve o uso de modelos de IA para criar

texto humano com base em prompts de entrada.
• Como funciona: Modelos como GPT-3 usam arquiteturas Transformer.
Eles são pré-treinados em vastos conjuntos de dados de texto para aprender

gramática, contexto e semântica. Quando solicitados, eles prevêem a próxima palavra
ou frase com base nos padrões que aprenderam.
• Aplicações: A geração de texto é aplicada na criação de conteúdo, chatbots e geração de

código. As empresas podem usá-lo para criar postagens em blogs, automatizar
respostas de suporte ao cliente e até mesmo gerar trechos de código. Os pensadores
estratégicos podem aproveitá-lo para redigir rapidamente textos de marketing ou criar
mensagens personalizadas para os clientes.
Geração de imagem
• O que é: a geração de imagens envolve o uso de vários aprendizados profundos
modelos para criar imagens que parecem reais.
• Como funciona: GANs consistem em um gerador (cria imagens) e um

discriminador (determina real vs. falso). Eles competem em um ciclo de feedback, com
o gerador melhorando na produção de imagens que o discriminador não consegue
distinguir das reais.
• Aplicações: Esses modelos são usados em arte, design e visualização de produtos.

As empresas podem gerar modelos de produtos para publicidade, criar
obras de arte exclusivas para branding ou até mesmo gerar rostos para diversos
materiais de marketing.
4
Geração de Áudio
• O que é: a geração de áudio envolve a criação de música, sons ou

até mesmo vozes humanas.
• Como funciona: modelos como WaveGAN analisam e imitam áudio
formas de onda. Modelos de conversão de texto em fala, como o Tacotron 2, usam texto
de entrada para gerar fala. Eles são treinados em grandes conjuntos de dados para capturar
nuances do som.
• Aplicativos: a música gerada por IA pode ser usada em anúncios, vídeos ou
como faixas de fundo. As marcas podem criar jingles cativantes ou efeitos sonoros
personalizados para campanhas de marketing. Tecnologia de conversão de texto em fala

pode automatizar narrações para anúncios ou interações de atendimento ao cliente.
Estrategicamente, as empresas podem usar áudio gerado por IA para melhorar o
reconhecimento da marca e a narrativa.
Geração de Vídeo
• O que é: a geração de vídeos envolve a criação de vídeos por IA, muitas vezes combinando
recursos visuais existentes ou completando partes que faltam.
• Como funciona: A geração de vídeos é complexa devido à natureza temporal dos vídeos.
Alguns modelos usam descrições de texto para gerar cenas, enquanto outros prevêem
quadros faltantes em vídeos.
• Aplicativos: vídeos gerados por IA podem ser usados de forma personalizada
mensagens, anúncios dinâmicos ou até mesmo marketing de conteúdo. As marcas podem criar
anúncios em vídeo exclusivos, adaptados a segmentos específicos de clientes.
Uma aplicação cuidadosa pode levar à criação eficiente de conteúdo de vídeo que se adapta
às tendências de marketing.
Gerando Imagens
Microsoft Bing Image Creator é uma ferramenta generativa de IA que usa inteligência artificial para criar imagens com
base em suas descrições de texto.
www.bing.com/images/create/
5
Para usar o Bing Image Creator, basta digitar uma descrição da imagem que deseja criar na caixa
de texto. Usaremos o mesmo exemplo mencionado anteriormente na geração de imagens realistas.
“Crie a imagem de um elefante rosa usando um chapéu de festa e apoiado em um arco-íris.”
O Bing Image Creator irá então gerar uma imagem com base na sua descrição.
A Figura 1-3 mostra a saída do Microsoft Bing.
Figura 1-3. Saída do Microsoft Bing
Gerando Texto
Vamos usar o ChatGPT para gerar texto. É um chatbot baseado em modelo de linguagem grande
desenvolvido pela OpenAI e lançado em novembro de 2022.
ChatGPT é treinado com aprendizagem por reforço por meio de feedback humano e modelos
de recompensa que classificam as melhores respostas. Esse feedback ajuda a aumentar o ChatGPT com
aprendizado de máquina para melhorar respostas futuras.
ChatGPT pode ser usado para diversos fins, incluindo
• Conversar com usuários
• Respondendo a perguntas
• Gerando texto
6
• Tradução de idiomas
• Escrever diferentes tipos de conteúdo criativo
O ChatGPT pode ser acessado on-line em
https://openai.com/blog/chatgpt Para usar o

ChatGPT, basta digitar a descrição desejada na caixa de texto.
Para criar conteúdo sobre nosso sistema solar. A Figura 1-4 mostra a saída do ChatGPT.
Figura 1-4. Saída do ChatGPT
7
Figura 1-4. (contínuo)
ChatGPT ou qualquer outra ferramenta ainda está em desenvolvimento, mas aprendeu a realizar diversos tipos de
tarefas. À medida que continua a aprender, tornar-se-á ainda mais poderoso e versátil.
8
IA generativa: jogadores atuais e seus modelos

A IA generativa é um campo em rápido crescimento com potencial para revolucionar muitas
indústrias. A Figura 1-5 mostra alguns dos participantes atuais no espaço generativo da IA.
Figura 1-5. Saída do ChatGPT
Resumidamente, vamos discutir alguns deles:
• OpenAI: OpenAI é uma empresa de pesquisa generativa de IA fundada

por Elon Musk, Sam Altman e outros. A OpenAI desenvolveu alguns
dos modelos de IA generativa mais avançados do mundo, incluindo GPT-4
e DALL-E 2.
• GPT-4: GPT-4 é um modelo de linguagem grande que pode gerar texto,

traduza idiomas, escreva diferentes tipos de conteúdo criativo e responda
às suas perguntas de forma informativa.
• DALL-E 2: DALL-E 2 é um modelo generativo de IA que pode criar

imagens realistas a partir de descrições de texto.
• DeepMind: DeepMind é uma empresa britânica de inteligência artificial que foi adquirida
pelo Google em 2014. DeepMind desenvolveu vários modelos generativos de IA,
incluindo AlphaFold, que pode prever a estrutura de proteínas, e Gato, que pode
executar uma variedade de tarefas, incluindo jogar Jogos Atari, controlando braços
robóticos e escrevendo diferentes tipos de conteúdo criativo.
9
• Anthropic: A Anthropic é uma empresa que está desenvolvendo modelos generativos

de IA para uso em diversos setores, incluindo saúde, finanças e manufatura. Os
modelos da Anthropic são treinados em enormes conjuntos de dados do mundo
real, o que lhes permite gerar resultados realistas e precisos.
• Synthesia: Synthesia é uma empresa especializada na criação de mídias sintéticas realistas,

como vídeos e gravações de áudio. A tecnologia da Synthesia pode ser usada
para criar avatares que podem falar, gesticular e até sincronizar os lábios com qualquer
entrada de áudio.
• RealSpeaker: RealSpeaker é um modelo generativo de IA que pode ser usado

para criar vozes sintéticas realistas.
• Natural Video: Natural Video é um modelo generativo de IA que pode ser usado para
criar vídeos sintéticos realistas.
• RunwayML: RunwayML é uma plataforma que facilita

empresas para construir e implantar modelos generativos de IA. RunwayML
fornece uma variedade de ferramentas e recursos para ajudar as empresas a coletar
dados, treinar modelos e avaliar resultados.
• Runway Studio: Runway Studio é uma plataforma baseada em nuvem que permite
às empresas criar e implantar modelos generativos de IA sem qualquer
experiência em codificação.
• API Runway: A API Runway é um conjunto de APIs que permitem

empresas para integrar IA generativa em seus aplicativos.
• Midjourney: Midjourney é um modelo generativo de IA que pode ser usado para criar
imagens, vídeos e textos realistas. Midjourney ainda está em desenvolvimento, mas
já foi usado para criar alguns resultados impressionantes.
Estas são apenas algumas das muitas empresas que estão trabalhando em IA generativa. À medida que o
campo continua a se desenvolver, podemos esperar ver ainda mais inovação e disrupção nos próximos anos.
10
Aplicativos de IA generativos
A IA generativa oferece uma ampla gama de aplicações em vários setores. Aqui estão algumas aplicações
principais:
1. Criação de conteúdo:
• Geração de texto: automatização de postagens em blogs, atualizações de mídia social,

e artigos.
• Geração de imagens: criação de recursos visuais personalizados para marketing
campanhas e anúncios.
• Geração de Vídeo: Criação de mensagens de vídeo personalizadas e anúncios

dinâmicos.
2. Design e Criatividade:
• Geração de Arte: Criação de obras de arte, ilustrações e

projetos.
• Design de Moda: Criação de estampas de roupas e acessórios.
• Design de Produto: Geração de protótipos e mock-ups.
3. Entretenimento e mídia:
• Composição Musical: Criação de trilhas musicais e paisagens sonoras

originais.
• Cinema e Animação: Criação de personagens, cenas e animações.
• Contação de histórias: Desenvolvimento de narrativas e enredos interativos.
4. Marketing e Publicidade:
• Personalização: elaboração de mensagens personalizadas e

recomendações para clientes.
• Branding: Criação de logotipos, embalagens e elementos de identidade visual.
• Campanhas publicitárias: desenvolvimento dinâmico e envolvente

anúncios.
11
5. Jogos:
• Construção Mundial: Gerando ambientes de jogo, terrenos e paisagens.
• Design de Personagens: Criação de personagens diversos e únicos no jogo.
• Conteúdo processual: Gerando níveis, missões e desafios.
6. Saúde e Medicina:
• Descoberta de Medicamentos: Projetando novas moléculas e compostos.
• Imagens Médicas: Aprimoramento e reconstrução de imagens médicas.
• Medicina Personalizada: Adaptação de planos de tratamento com base nos

dados do paciente.
7. Tradução de idiomas:
• Tradução em tempo real: permite tradução instantânea de linguagem falada ou

escrita.
• Legendagem e localização: geração automática de legendas

para vídeos.
8. Atendimento ao Cliente:
• Chatbots: Criação de agentes conversacionais para suporte ao cliente.
• Assistentes de voz: fornecendo assistência baseada em voz para consultas

e tarefas.
9. Educação e Treinamento:
• Aprendizagem Interativa: Desenvolvimento de materiais de aprendizagem adaptativos.
• Simulações: Criação de cenários e simulações de treinamento realistas.
10. Arquitetura e Design:
• Projeto de Edifícios: Geração de layouts e projetos arquitetônicos.
• Planejamento Urbano: Projetando paisagens urbanas e layouts urbanos.
12
Conclusão
Este capítulo se concentrou na IA generativa, um domínio em rápida evolução da inteligência
artificial especializado na criação de conteúdo novo e exclusivo, como texto, imagens, áudio e vídeos.
Construídos com base nos avanços em aprendizagem profunda e processamento de linguagem
natural (PNL), esses modelos têm diversas aplicações, incluindo criação de conteúdo, design,
entretenimento, saúde e atendimento ao cliente. Notavelmente, a IA generativa também traz
preocupações éticas, particularmente na criação de deepfakes ou na disseminação de
desinformação. O capítulo fornece uma visão aprofundada de diferentes domínios da IA
generativa – geração de texto, imagem, áudio e vídeo – detalhando como eles funcionam e
suas aplicações práticas. Também discute alguns dos principais players do setor, como OpenAI,
DeepMind e Synthesia, entre outros. Por último, descreve uma ampla gama de aplicações em vários setores
13
CAPÍTULO 2
Evolução do Neural
Redes para grandes
Modelos de Linguagem
Nas últimas décadas, os modelos de linguagem passaram por avanços significativos.
Inicialmente, modelos básicos de linguagem foram empregados para tarefas como reconhecimento de
fala, tradução automática e recuperação de informações. Esses primeiros modelos foram construídos
usando métodos estatísticos, como modelos n-gram e modelos ocultos de Markov. Apesar de sua utilidade,
esses modelos apresentavam limitações em termos de precisão e escalabilidade.
Com a introdução do aprendizado profundo, as redes neurais se tornaram mais populares para
tarefas de modelagem de linguagem. Entre elas, as redes neurais recorrentes (RNNs) e as redes de
memória de longo e curto prazo (LSTM) surgiram como escolhas particularmente eficazes. Esses modelos
são excelentes na captura de relações sequenciais em dados linguísticos e na geração de resultados
coerentes.
Nos últimos tempos, as abordagens baseadas na atenção, exemplificadas pela arquitetura
Transformer, ganharam atenção considerável. Esses modelos produzem resultados concentrando-se
em segmentos específicos da sequência de entrada, usando técnicas de autoatenção.
Seu sucesso foi demonstrado em diversas tarefas de processamento de linguagem natural, incluindo
modelagem de linguagem.
A Figura 2-1 mostra os principais marcos e avanços na evolução dos modelos de linguagem.
15
Capítulo 2 Evolução de Redes Neurais para Grandes Modelos de Linguagem
Figura 2-1. Evolução dos modelos de linguagem
Antes de entrarmos em detalhes na evolução, vamos explorar o processamento de linguagem natural.
Processamento de linguagem natural
O processamento de linguagem natural (PNL) é um subcampo da inteligência artificial (IA) e da

linguística computacional que se concentra em permitir que os computadores entendam,
interpretem e gerem a linguagem humana. A PNL visa preencher a lacuna entre a comunicação humana e a
compreensão da máquina, permitindo que os computadores processem e extraiam significado de dados textuais.
Ele desempenha um papel crucial em diversas aplicações, incluindo tradução de idiomas, análise de
sentimentos, chatbots, assistentes de voz, resumo de texto e muito mais.
Os avanços recentes na PNL foram impulsionados por técnicas de aprendizagem profunda,

especialmente usando modelos baseados em transformadores como BERT (Representações de
codificador bidirecional de transformadores) e GPT (Transformador generativo pré-treinado).
Esses modelos aproveitam o pré-treinamento em grande escala em grandes quantidades de dados de texto e
podem ser ajustados para tarefas específicas de PNL, alcançando desempenho de última geração em uma
ampla gama de aplicações.
A PNL continua a ser um campo em rápida evolução, com pesquisa e desenvolvimento contínuos
com o objetivo de melhorar a compreensão, geração e interação da linguagem entre máquinas e
humanos. À medida que as capacidades da PNL melhoram, ela tem o potencial de revolucionar a maneira como
interagimos com a tecnologia e possibilitar experiências humanas mais naturais e contínuas.
comunicação por computador.
16
Tokenização
Tokenização é o processo de dividir o texto em palavras ou tokens individuais. Ajuda a segmentar o texto
e analisá-lo em um nível mais granular.
Exemplo:
Entrada: “Adoro codificar em python”
Tokenização: [“Eu”, “Amo”, “para”, “código”, “em”, “python”]
N-gramas
No processamento de linguagem natural (PNL), os n-gramas são uma técnica poderosa e
amplamente utilizada para extrair informações contextuais de dados de texto. N-gramas são essencialmente
sequências contíguas de n itens, onde os itens podem ser palavras, caracteres ou mesmo fonemas,
dependendo do contexto. O valor de “n” em n-gramas determina o número de itens consecutivos na
sequência. N-gramas comumente usados incluem unigramas (1 grama), bigramas (2 gramas),
trigramas (3 gramas) e assim por diante:
1. Unigramas (1 grama):
Unigramas são palavras isoladas em um texto. Eles representam símbolos

individuais ou unidades de significado no texto.
Exemplo:
Entrada: “Eu adoro o processamento de linguagem natural.”
Unigramas: [“Eu”, “amor”, “natural”, “linguagem”, “processamento”, “.”]
2. Bigramas (2 gramas):
Bigrams consistem em duas palavras consecutivas em um texto. Eles fornecem

uma noção dos pares de palavras e da relação entre palavras adjacentes.
Exemplo:
Bigramas: [(“Eu”, “amor”), (“amor”, “natural”), (“natural”, “linguagem”),

(“linguagem”, “processamento”), (“processamento”, “. ”)]
3. Trigramas (3 gramas):
17
Trigramas são três palavras consecutivas em um texto. Eles capturam mais contexto e
fornecem insights sobre trigêmeos de palavras.
Exemplo:
Trigramas: [(“Eu”, “amor”, “natural”), (“amor”, “natural”, “linguagem”), (“natural”,
“linguagem”, “processamento”), (“linguagem”, "em processamento", ".")]
4. N-gramas em modelagem de linguagem:
Em tarefas de modelagem de linguagem, n-gramas são usados para estimar a
probabilidade de uma palavra dado seu contexto. Por exemplo, com bigramas,
podemos estimar a probabilidade de uma palavra com base na palavra anterior.
5. N-gramas na classificação de texto:
N-gramas são úteis em tarefas de classificação de texto, como análise de

sentimento. Ao considerar as frequências de n-gramas em textos positivos e
negativos, o classificador pode aprender as características distintivas de
cada classe.
6. Limitações de n-gramas:
Embora os n-gramas sejam poderosos na captura do contexto local, eles podem perder
o contexto global. Por exemplo, os bigramas podem não ser suficientes para compreender
o significado de uma frase se algumas palavras tiverem fortes dependências de outras
localizadas mais distantes.
7. Tratamento de palavras fora do vocabulário (OOV):
Ao usar n-gramas, é essencial lidar com palavras fora do vocabulário (palavras não
vistas durante o treinamento). Técnicas como adicionar um token especial para palavras
desconhecidas ou usar n-gramas em nível de caractere podem ser empregadas.
8. Suavização:
Os modelos de N-gramas podem sofrer com a dispersão de dados, especialmente
quando se trata de n-gramas de ordem superior. Técnicas de suavização como
suavização de Laplace (add-one) ou suavização de Good-Turing podem ajudar a
resolver esse problema.
18
N-gramas são uma ferramenta valiosa em PNL para capturar o contexto local
e extrair características significativas de dados de texto. Eles têm diversas
aplicações em modelagem de linguagem, classificação de texto, recuperação
de informações e muito mais. Embora os n-gramas forneçam informações valiosas
sobre a estrutura e o contexto do texto, eles devem ser usados em conjunto com
outras técnicas de PNL para construir modelos robustos e precisos.
Representação e incorporações de linguagem

Representação e incorporação de linguagem são conceitos fundamentais no processamento de
linguagem natural (PNL) que envolvem a transformação de palavras ou frases em vetores numéricos. Essas
representações numéricas permitem que os computadores entendam e processem a linguagem humana,
facilitando a aplicação de algoritmos de aprendizado de máquina a tarefas de PNL.
Vamos explorar a representação e incorporações da linguagem com mais detalhes.
Word2Vec e GloVe são técnicas populares usadas para incorporação de palavras, um processo
de representação de palavras como vetores densos em um espaço vetorial de alta dimensão.
Esses embeddings de palavras capturam relações semânticas entre palavras e são amplamente utilizados
em tarefas de processamento de linguagem natural.
Word2Vec
Word2Vec é uma família de modelos de incorporação de palavras introduzida por Mikolov et al. em 2013.
Consiste em duas arquiteturas principais: saco contínuo de palavras (CBOW) e skip-gram:
1. CBOW: O modelo CBOW prevê uma palavra-alvo com base em seu

palavras de contexto. Ele pega um conjunto de palavras de contexto como
entrada e tenta prever a palavra alvo no meio do contexto. É eficiente e pode
lidar com várias palavras de contexto de uma só vez.
2. Skip-gram: O modelo skip-gram faz o oposto do CBOW. Isto

pega uma palavra alvo como entrada e tenta prever as palavras do contexto em
torno dela. Skip-gram é útil para capturar relações de palavras e é conhecido
por ter melhor desempenho em palavras raras.
Word2Vec usa uma rede neural superficial com uma única camada oculta para aprender a palavra
incorporações. Os embeddings aprendidos colocam palavras semanticamente semelhantes mais próximas
no espaço vetorial.
19
GloVe (vetores globais para representação de palavras)
GloVe é outra técnica popular de incorporação de palavras introduzida por Pennington et al. em 2014. Ao
contrário do Word2Vec, o GloVe usa uma matriz de coocorrência de pares de palavras para aprender a
incorporação de palavras. A matriz de coocorrência representa a frequência com que duas palavras aparecem
juntas em um determinado corpus.
GloVe visa fatorar esta matriz de coocorrência para obter embeddings de palavras que
capturar as relações globais palavra a palavra em todo o corpus. Ele aproveita informações de contexto
global e local para criar representações de palavras mais significativas.
Agora, vamos retomar detalhadamente a evolução das redes neurais para LLMS.
Modelos Probabilísticos
O modelo probabilístico n-gram é uma abordagem simples e amplamente utilizada para modelagem de
linguagem em processamento de linguagem natural (PNL). Ele estima a probabilidade de uma palavra com
base nas n-1 palavras anteriores em uma sequência. O “n” em n-grama representa o número de palavras
consideradas juntas como uma unidade. O modelo n-grama é construído na suposição de Markov, que assume
que a probabilidade de uma palavra depende apenas de uma janela fixa das palavras anteriores:
1. Representação de N-gramas: O texto de entrada é dividido em sequências contíguas

de n palavras. Cada sequência de n palavras é tratada como uma unidade ou
n-grama. Por exemplo, em um modelo bigrama (n=2), cada par de palavras
consecutivas torna-se um n-grama.
2. Contagem de frequência: o modelo conta as ocorrências de cada n-grama nos

dados de treinamento. Ele monitora a frequência com que cada sequência
específica de palavras aparece no corpus.
3. Cálculo de probabilidades: Para prever a probabilidade da próxima palavra em

uma sequência, o modelo usa contagens de n gramas. Por exemplo, num
modelo bigrama, a probabilidade de uma palavra é estimada com base na frequência
da palavra anterior (unigrama). A probabilidade é calculada como a razão
entre a contagem do bigrama e a contagem do unigrama.
20
4. Suavização: Na prática, o modelo n-grama pode encontrar n-gramas invisíveis

(sequências não presentes nos dados de treinamento). Para lidar com esse
problema, técnicas de suavização são aplicadas para atribuir pequenas
probabilidades a n-gramas invisíveis.
5. Geração de linguagem: uma vez treinado o modelo n-gram, ele pode

ser usado para geração de linguagem. Começando com uma palavra inicial, o
modelo prevê a próxima palavra com base nas probabilidades mais altas dos n-
gramas disponíveis. Este processo pode ser repetido iterativamente para gerar
sentenças.
O modelo oculto de Markov (HMM) é outro modelo probabilístico importante no processamento

de linguagem. É usado para modelar sequências de dados que seguem uma estrutura Markoviana, onde
uma sequência subjacente de estados ocultos gera eventos observáveis.
O termo “oculto” refere-se ao fato de que não podemos observar diretamente os estados, mas podemos
inferi-los a partir dos eventos observáveis. HMMs são usados em diversas tarefas, como reconhecimento
de fala, marcação de classes gramaticais e tradução automática.

Limitações:
– O modelo n-grama tem contexto limitado, considerando apenas

as n-1 palavras anteriores, que podem não capturar dependências de longo
alcance.
– Pode não capturar eficazmente o significado semântico ou as estruturas

sintáticas da língua.
Apesar de sua simplicidade e limitações, o modelo probabilístico n-gram fornece uma linha de base
útil para tarefas de modelagem de linguagem e tem sido um conceito fundamental para modelos de
linguagem mais sofisticados, como redes neurais recorrentes (RNNs) e modelos baseados em Transformers.
Modelos de linguagem baseados em redes neurais

Os modelos de linguagem baseados em redes neurais trouxeram um avanço significativo no
processamento de linguagem natural (PNL) nos últimos tempos. Esses modelos utilizam redes neurais,
que são estruturas computacionais inspiradas no cérebro humano, para processar e compreender a linguagem.
21
A ideia principal por trás desses modelos é treinar uma rede neural para prever a próxima
palavra em uma frase com base nas palavras que a precedem. Ao apresentar à rede uma
grande quantidade de dados de texto e ensiná-la a reconhecer padrões e relações entre
palavras, ela aprende a fazer previsões probabilísticas sobre qual palavra provavelmente virá a seguir.
Depois que a rede neural é treinada em um vasto conjunto de dados, ela pode usar os padrões
aprendidos para gerar texto, completar frases ou até mesmo responder perguntas com base no contexto
que aprendeu durante o treinamento.
Ao capturar efetivamente as relações e dependências entre palavras em uma frase, esses modelos
de linguagem melhoraram drasticamente a capacidade dos computadores de compreender e gerar
linguagem humana, levando a avanços significativos em vários aplicativos de PNL, como tradução
automática, análise de sentimento, chatbots e muito mais. .
Camada de entrada (n1, n2, ..., n_input)
ÿÿÿ
Camada oculta (n3, n4, ..., n_hidden)
ÿÿÿ
Camada de saída (n5, n6, ..., n_output)
Neste diagrama:
– “n_input” representa o número de neurônios de entrada, cada um

correspondendo a um recurso nos dados de entrada.
– “n_hidden” representa o número de neurônios na camada oculta.

A camada oculta pode ter vários neurônios, normalmente levando a
representações mais complexas dos dados de entrada.
– “n_output” representa o número de neurônios na camada de saída. O número

de neurônios de saída depende da natureza do problema – pode ser binário
(um neurônio) ou multiclasse (vários neurônios).
Redes Neurais Recorrentes (RNNs)

Redes neurais recorrentes (RNNs) são um tipo de rede neural artificial projetada para
processar dados sequenciais, um elemento por vez, enquanto mantém um estado interno que
resume o histórico de entradas anteriores. Eles têm a capacidade única de lidar
22
sequências de entrada e saída de comprimento variável, tornando-as adequadas para tarefas de

processamento de linguagem natural, como síntese de linguagem, tradução automática e reconhecimento
de fala.
A principal característica que diferencia as RNNs é a sua capacidade de capturar
dependências temporais através de ciclos de feedback. Esses loops permitem que a rede use informações de
resultados anteriores como entradas para previsões futuras. Essa capacidade semelhante à
memória permite que as RNNs retenham contexto e informações de elementos anteriores na sequência,
influenciando a geração de resultados subsequentes.
No entanto, as RNNs enfrentam alguns desafios. O problema do gradiente evanescente é um
problema significativo, onde os gradientes usados para atualizar os pesos da rede tornam-se muito pequenos
durante o treinamento, dificultando o aprendizado eficaz das dependências de longo prazo.
Por outro lado, o problema do gradiente explosivo pode ocorrer quando os gradientes se tornam muito
grandes, levando a atualizações de peso instáveis.
Além disso, os RNNs são inerentemente sequenciais, processando elementos um por um, o que
pode ser computacionalmente caro e difícil de paralelizar. Esta limitação pode dificultar a sua escalabilidade
ao lidar com grandes conjuntos de dados.
Para resolver alguns desses problemas, foram desenvolvidas variantes mais avançadas de RNNs,
como memória de longo e curto prazo (LSTM) e unidade recorrente controlada (GRU).
Essas variantes provaram ser mais eficazes na captura de dependências de longo prazo e na mitigação
do problema do gradiente evanescente.
RNNs são modelos poderosos para lidar com dados sequenciais, mas apresentam certos
desafios relacionados ao aprendizado de dependência de longo prazo, problemas de gradiente e
eficiência computacional. Suas variantes, como LSTM e GRU, melhoraram essas limitações e continuam
sendo ferramentas essenciais para uma ampla gama de tarefas sequenciais no processamento de
linguagem natural e além.
Memória Longa de Curto Prazo (LSTM)
Redes de memória de longo e curto prazo (LSTM) são um tipo especializado de arquitetura de rede
neural recorrente (RNN) projetada para resolver o problema do gradiente evanescente e capturar
dependências de longo prazo em dados sequenciais. Eles foram introduzidos por Hochreiter e Schmidhuber
em 1997 e desde então ganharam popularidade para modelar dados sequenciais em diversas aplicações.
23
A principal característica que diferencia o LSTM dos RNNs tradicionais é sua capacidade de
incorporar uma célula de memória que pode reter ou esquecer seletivamente informações ao longo do tempo.
Esta célula de memória é controlada por três portas: a porta de entrada, a porta de esquecimento e a porta
de saída:
– A porta de entrada regula o fluxo de novos dados na célula de memória, permitindo-lhe

decidir quais novas informações são importantes para armazenar.
– O portão de esquecimento controla a retenção dos dados atuais na célula de memória,

permitindo esquecer informações irrelevantes ou desatualizadas de intervalos de
tempo anteriores.
– A porta de saída regula o fluxo de informações da memória

célula à saída da rede, garantindo que as informações relevantes sejam utilizadas na
geração de previsões.
Esse mecanismo de controle permite que o LSTM capture dependências de longo alcance em
dados sequenciais, tornando-o particularmente eficaz para tarefas que envolvem processamento de
linguagem natural, como modelagem de linguagem, tradução automática e análise de sentimento.
Além disso, os LSTMs foram aplicados com sucesso em outras tarefas, como reconhecimento de voz e
legendagem de imagens.
Ao abordar o problema do gradiente evanescente e fornecer uma maneira melhor de reter e utilizar
informações importantes ao longo do tempo, as redes LSTM tornaram-se uma ferramenta poderosa para lidar
com dados sequenciais e melhoraram significativamente o desempenho de várias aplicações na área de
aprendizado de máquina e inteligência artificial.
Unidade Recorrente Fechada (GRU)
Redes GRU (gated recurrent unit) são um tipo de arquitetura de rede neural comumente usada em
aprendizado profundo e processamento de linguagem natural (PNL). Eles são projetados para resolver o
problema do gradiente evanescente, assim como as redes LSTM.
Semelhante aos LSTMs, os GRUs também incorporam um mecanismo de controle, permitindo que a rede
atualize e esqueça informações seletivamente ao longo do tempo. Esse mecanismo de controle é crucial para
capturar dependências de longo prazo em dados sequenciais e torna as GRUs eficazes para tarefas que
envolvem linguagem e dados sequenciais.
A principal vantagem dos GRUs sobre os LSTMs reside no seu design mais simples e em menos
parâmetros. Essa simplicidade torna as GRUs mais rápidas de treinar e mais simples de implantar,
tornando-as uma escolha popular em diversas aplicações.
24
Embora tanto GRUs quanto LSTMs tenham um mecanismo de portas, a principal diferença está no
número de portas usadas para regular o fluxo de informações. Os LSTMs usam três portas: a porta de entrada,
a porta de esquecimento e a porta de saída. Em contraste, as GRUs usam apenas duas portas: a porta de
reinicialização e a porta de atualização.
A porta de reinicialização controla quais informações descartar do intervalo de tempo anterior,
enquanto a porta de atualização determina quanto das novas informações adicionar à célula de
memória. Essas duas portas permitem que as GRUs controlem o fluxo de informações de forma eficaz, sem
a complexidade de ter uma porta de saída.
As redes GRU são uma adição valiosa à família de redes neurais recorrentes.
Seu design mais simples e treinamento eficiente fazem deles uma escolha prática para diversas tarefas
relacionadas a sequências, e eles provaram ser altamente eficazes em processamento de linguagem natural,
reconhecimento de fala e outras aplicações de análise de dados sequenciais.
Redes Codificador-Decodificador
A arquitetura codificador-decodificador é um tipo de rede neural usada para lidar com tarefas sequenciais como
tradução de idiomas, chatbot, reconhecimento de áudio e legenda de imagens. É composto por dois
componentes principais: a rede do codificador e a rede do decodificador.
Durante a tradução do idioma, por exemplo, a rede codificadora processa a frase de entrada no idioma
de origem. Ele percorre a frase palavra por palavra, gerando uma representação de comprimento fixo chamada
vetor de contexto. Este vetor de contexto contém informações importantes sobre a frase de entrada e
serve como uma versão condensada da frase original.
Em seguida, o vetor de contexto é alimentado na rede do decodificador. A rede de decodificadores
utiliza o vetor de contexto junto com seus estados internos para começar a gerar a sequência de saída,
que neste caso é a tradução no idioma de destino. O decodificador gera uma palavra por vez, utilizando
o vetor de contexto e as palavras geradas anteriormente para prever a próxima palavra na tradução.
Modelos sequência a sequência

Os modelos sequência a sequência (Seq2Seq) são um tipo de arquitetura de aprendizado profundo
projetada para lidar com sequências de entrada de comprimento variável e gerar sequências de saída de
comprimento variável. Eles se tornaram populares em tarefas de processamento de linguagem natural
(PNL), como tradução automática, resumo de texto, chatbots e muito mais. A arquitetura compreende um
codificador e um decodificador, ambos redes neurais recorrentes (RNNs) ou modelos baseados em

transformadores.
25
Codificador
O codificador pega a sequência de entrada e a processa palavra por palavra, produzindo uma representação de
tamanho fixo (vetor de contexto) que codifica toda a sequência de entrada. O vetor de contexto captura as
informações essenciais da sequência de entrada e serve como estado oculto inicial para o decodificador.
Decodificador
O decodificador toma o vetor de contexto como seu estado oculto inicial e gera a sequência de saída palavra por
palavra. A cada etapa, ele prevê a próxima palavra na sequência com base no vetor de contexto e nas palavras
geradas anteriormente. O decodificador está condicionado à entrada do codificador, permitindo produzir saídas
significativas.
Mecanismo de Atenção
Na arquitetura codificador-decodificador padrão, o processo começa codificando a sequência de entrada em uma
representação vetorial de comprimento fixo. Esta etapa de codificação condensa todas as informações da sequência
de entrada em um único vetor de tamanho fixo, comumente conhecido como “vetor de contexto”.
O decodificador então toma esse vetor de contexto como entrada e gera a sequência de saída, passo
a passo. O decodificador usa o vetor de contexto e seus estados internos para prever cada elemento da
sequência de saída.
Embora esta abordagem funcione bem para sequências de entrada mais curtas, ela pode enfrentar desafios
ao lidar com sequências de entrada longas. A codificação de comprimento fixo pode levar à perda de
informação porque o vetor de contexto tem capacidade limitada de capturar todas as nuances e detalhes
presentes em sequências mais longas.
Em essência, quando as sequências de entrada são longas, a codificação de comprimento fixo pode
ter dificuldades para reter todas as informações relevantes, resultando potencialmente em uma sequência de
saída menos precisa ou incompleta.
Para resolver esse problema, técnicas mais avançadas foram desenvolvidas, como o uso de
mecanismos de atenção na arquitetura codificador-decodificador. Mecanismos de atenção
permitir que o modelo se concentre em partes específicas da sequência de entrada enquanto gera cada elemento
da sequência de saída. Dessa forma, o modelo pode lidar efetivamente com longas sequências de entrada e
evitar a perda de informações, levando a um melhor desempenho e resultados mais precisos.
26
O mecanismo de atenção calcula pontuações de atenção entre os sinais ocultos do decodificador
estado (consulta) e o estado oculto de cada codificador (chave). Essas pontuações de atenção determinam a
importância de diferentes partes da sequência de entrada, e o vetor de contexto é então formado como uma
soma ponderada dos estados ocultos do codificador, com pesos determinados pelas pontuações de atenção.
A arquitetura Seq2Seq, com ou sem atenção, permite que o modelo lide

sequências de comprimento variável e geram sequências de saída significativas, tornando-o adequado
para várias tarefas de PNL que envolvem dados sequenciais.
Modelos de sequência a sequência de treinamento
Os modelos Seq2Seq são treinados usando pares de sequências de entrada e suas sequências de saída
correspondentes. Durante o treinamento, o codificador processa a sequência de entrada e o decodificador
gera a sequência de saída. O modelo é otimizado para minimizar a diferença entre o resultado gerado e o
resultado da verdade básica usando técnicas como forçamento do professor ou aprendizagem por reforço.
Desafios dos modelos sequência a sequência
Os modelos Seq2Seq apresentam alguns desafios, como lidar com sequências longas, lidar com palavras fora
do vocabulário e manter o contexto em longas distâncias. Técnicas como mecanismos de atenção e busca de
feixe foram introduzidas para resolver esses problemas
e melhorar o desempenho dos modelos Seq2Seq.

Os modelos sequência a sequência são arquiteturas poderosas de aprendizado profundo para
lidar com dados sequenciais em tarefas de PNL. Sua capacidade de lidar com sequências de entrada e saída
de comprimento variável os torna adequados para aplicações que envolvem compreensão e geração de
linguagem natural.
Transformador
A arquitetura Transformer foi introduzida por Vaswani et al. em 2017 como um projeto de rede
neural inovador amplamente utilizado em tarefas de processamento de linguagem natural, como categorização
de texto, modelagem de linguagem e tradução automática.
27
Em sua essência, a arquitetura do Transformer se assemelha a um modelo codificador-decodificador. O
processo começa com o codificador, que pega a sequência de entrada e gera uma representação oculta dela.
Esta representação oculta contém informações essenciais sobre a sequência de entrada e serve como uma
representação contextualizada.
A representação oculta é então passada para o decodificador, que a utiliza para gerar
a sequência de saída. Tanto o codificador quanto o decodificador consistem em múltiplas camadas de
redes neurais de autoatenção e feed-forward.
A camada de autoatenção calcula os pesos de atenção entre todos os pares de componentes de

entrada, permitindo que o modelo se concentre em diferentes partes da sequência de entrada conforme
necessário. Os pesos de atenção são usados para calcular uma soma ponderada dos elementos de
entrada, fornecendo ao modelo uma maneira de incorporar seletivamente informações relevantes de toda a
sequência de entrada.
A camada feedforward processa ainda mais a saída da camada de autoatenção com transformações não
lineares, aprimorando a capacidade do modelo de capturar padrões e relacionamentos complexos nos dados.
O design do Transformer oferece várias vantagens em relação à rede neural anterior

arquiteturas:
1. Eficiência: permite o processamento paralelo da sequência de entrada,

tornando-o mais rápido e computacionalmente eficiente em comparação com
modelos sequenciais tradicionais.
2. Interpretabilidade: Os pesos de atenção podem ser visualizados, permitindo-nos ver

em quais partes da sequência de entrada o modelo foca durante o processamento,
facilitando a compreensão e interpretação do comportamento do modelo.
3. Contexto Global: O Transformer pode considerar toda a sequência de entrada

simultaneamente, permitindo capturar dependências de longo alcance e
melhorar o desempenho em tarefas como tradução automática, onde o contexto
de toda a frase é crucial.
A arquitetura Transformer tornou-se uma abordagem dominante no processamento de linguagem natural e

avançou significativamente o estado da arte em diversas tarefas relacionadas à linguagem, graças à sua
eficiência, interpretabilidade e capacidade de capturar o contexto global nos dados.
28
Grandes Modelos de Linguagem (LLMs)

Grandes Modelos de Linguagem (LLMs) referem-se a uma classe de modelos avançados de inteligência artificial
projetados especificamente para processar e compreender a linguagem humana em larga escala.
Esses modelos são normalmente construídos usando técnicas de aprendizagem profunda, particularmente
arquiteturas baseadas em Transformer, e são treinados em grandes quantidades de dados textuais de
a Internet.
A principal característica dos grandes modelos de linguagem é a sua capacidade de aprender

padrões complexos, representações semânticas e relações contextuais em linguagem natural.
Eles podem gerar texto semelhante ao humano, traduzir entre idiomas, responder perguntas, realizar
análises de sentimentos e realizar uma ampla gama de tarefas de processamento de linguagem
natural.
Um dos exemplos mais conhecidos de grandes modelos de linguagem é o GPT da OpenAI.
Série (Generative Pre-trained Transformer), que inclui modelos como GPT-3.
Esses modelos são pré-treinados em grandes conjuntos de dados e podem ser ajustados para aplicações
específicas, permitindo que se adaptem e se destaquem em diversas tarefas relacionadas à linguagem.
As capacidades de grandes modelos de linguagem trouxeram avanços significativos ao processamento de
linguagem natural, tornando-os fundamentais em vários setores, incluindo suporte ao cliente, geração de
conteúdo, tradução de idiomas e muito mais. No entanto, também levantam preocupações importantes em
relação à ética, ao preconceito e à utilização indevida devido ao seu potencial para gerar textos semelhantes
aos humanos e espalhar desinformação se não forem utilizados de forma responsável.
Alguns exemplos notáveis de LLMs incluem o seguinte:
1. GPT: GPT é a quarta versão do Generative Pre-

série de transformadores treinados. É conhecido por sua capacidade de gerar
textos semelhantes aos humanos e demonstrou proficiência em responder
perguntas, criar poesia e até escrever códigos.
2. BERT (representações de codificador bidirecional de

Transformers): Desenvolvido pelo Google, o BERT é um LLM fundamental que
captura o contexto de ambas as direções do texto de entrada, tornando-o adepto
da compreensão das nuances e relacionamentos da linguagem. Tornou-se um
modelo fundamental para uma ampla gama de tarefas de PNL.
3. T5 (Transformador de transferência de texto para texto): Também desenvolvido por
Google, T5 aborda todas as tarefas de PNL como problemas de texto para texto.
Essa estrutura unificadora mostrou excelente desempenho em tarefas como
tradução, resumo e resposta a perguntas.
29
4. RoBERTa: o RoBERTa do Facebook é uma versão otimizada do BERT que

alcançou resultados de última geração em vários PNL
benchmarks. Baseia-se na arquitetura e no processo de treinamento do

BERT, melhorando ainda mais as capacidades de compreensão do idioma.
Esses LLMs demonstraram avanços no processamento de linguagem natural, ampliando os limites

do que os modelos de IA podem alcançar em tarefas como geração, compreensão e tradução de linguagem. Sua
versatilidade e desempenho de última geração os tornaram ativos valiosos em aplicações que vão desde
chatbots e tradução de idiomas até análise de sentimentos e geração de conteúdo. À medida que a
pesquisa na área avança, podemos esperar o surgimento de LLMs ainda mais sofisticados e capazes,
continuando a revolucionar o campo da PNL.
Conclusão
O desenvolvimento de redes neurais para grandes modelos de linguagem trouxe avanços significativos
no campo do processamento de linguagem natural (PNL).
Desde modelos probabilísticos tradicionais, como n-gramas e modelos ocultos de Markov, até
modelos mais avançados baseados em redes neurais, como redes neurais recorrentes
(RNNs), redes de memória de longo e curto prazo (LSTM) e unidades recorrentes fechadas (GRUs), os
pesquisadores melhoraram continuamente esses modelos para superar desafios como o desaparecimento
de gradientes e o manuseio eficiente de grandes conjuntos de dados.
Um avanço notável é a introdução de técnicas baseadas na atenção, particularmente a arquitetura
Transformer. Os transformadores mostraram desempenho excepcional em vários aplicativos de PNL,
permitindo que o modelo se concentrasse em partes específicas da sequência de entrada usando
mecanismos de autoatenção.
Esses modelos alcançaram um sucesso notável na modelagem de linguagem por causa de
sua capacidade de atender efetivamente a diferentes regiões da sequência de entrada, capturando padrões
e dependências complexas.
Por último, o foco mudou para grandes modelos de linguagem (LLMs), que utilizam redes neurais
profundas para gerar texto em linguagem natural. LLMs como o GPT-3 demonstraram capacidades
surpreendentes, gerando texto semelhante ao humano, respondendo a perguntas e executando
várias tarefas relacionadas ao idioma.
30
Concluindo, os avanços nas redes neurais para grandes modelos de linguagem

revolucionaram o cenário da PNL, permitindo que as máquinas compreendam e gerem a
linguagem humana em um nível sem precedentes, abrindo novas possibilidades de comunicação,
criação de conteúdo e resolução de problemas.
Nos próximos capítulos, vamos nos aprofundar na arquitetura e nos aplicativos de grandes modelos
de linguagem.
31
CAPÍTULO 3
LLMs e transformadores
Neste capítulo, embarcamos em uma jornada esclarecedora pelo mundo dos LLMs e pelas
complexidades da arquitetura do Transformer, desvendando os mistérios por trás de suas capacidades
extraordinárias. Esses avanços pioneiros não apenas impulsionaram o campo da PNL a novos patamares,
mas também revolucionaram a forma como as máquinas percebem, compreendem e geram a linguagem.
O poder dos modelos de linguagem

Os modelos de linguagem surgiram como uma força motriz no domínio do processamento de linguagem
natural (PNL), exercendo o poder de transformar a forma como as máquinas interpretam e geram a linguagem
humana. Esses modelos atuam como linguistas virtuais, decifrando os meandros da gramática, da
sintaxe e da semântica, para dar sentido às vastas complexidades da comunicação humana. A importância
dos modelos de linguagem reside não apenas na sua capacidade de compreender o texto, mas também
no seu potencial para gerar respostas coerentes e contextualmente relevantes, confundindo os limites entre a
compreensão da linguagem humana e da máquina.
No centro dos modelos de linguagem está o conceito de probabilidade condicional, em que um modelo
aprende a probabilidade de uma palavra ou token ocorrer dadas as palavras anteriores em uma sequência. Ao
treinar em extensos conjuntos de dados contendo uma ampla variedade de padrões de linguagem, esses
modelos tornam-se adeptos da previsão da próxima palavra mais provável em um determinado
contexto. Esse poder preditivo os torna indispensáveis em uma infinidade de tarefas de PNL, desde tradução
automática e resumo até análise de sentimento, resposta a perguntas e muito mais.
No entanto, os modelos de linguagem tradicionais tinham limitações inerentes, especialmente quando

lidar com dependências de longo alcance e capturar as nuances contextuais da linguagem. A
necessidade de soluções mais sofisticadas abriu caminho para grandes modelos de linguagem (LLMs), que
revolucionaram o campo da PNL através de sua imensa escala, poderosas inovações arquitetônicas e das
notáveis habilidades que possuem.
33
Capítulo 3 LLMs e Transformadores
Grandes modelos de linguagem aproveitam enormes recursos computacionais e enormes

quantidades de dados durante seu processo de treinamento, permitindo-lhes compreender as
complexidades sutis da linguagem humana. Além disso, eles se destacam na generalização, aprendendo com a
vasta gama de exemplos que encontram durante os processos de pré-treinamento e ajuste fino, o que lhes
permite um desempenho impressionante em uma ampla gama de tarefas de PNL.
A introdução da arquitetura Transformer marcou um momento crucial no avanço dos modelos de
linguagem. Proposto no artigo seminal “Atenção é tudo que você precisa”, o Transformer introduziu o
mecanismo de atenção – um conceito revolucionário que permite ao modelo pesar dinamicamente a
relevância de cada palavra em uma sequência em relação a todas as outras palavras. Este mecanismo de
atenção, juntamente com as redes neurais feed-forward, constitui a base do notável desempenho do Transformer.
À medida que os modelos linguísticos continuam a evoluir, eles mantêm a promessa de impulsionar
avanços ainda mais profundos na compreensão e geração de idiomas impulsionados pela IA.
No entanto, com esse poder vem a responsabilidade de abordar questões éticas relacionadas com
preconceitos, desinformação e privacidade. Encontrar um equilíbrio entre ultrapassar os limites da modelagem
linguística e, ao mesmo tempo, defender considerações éticas é crucial para garantir a implantação responsável
e o impacto dessas ferramentas poderosas.
Nas seções seguintes, nos aprofundamos nas complexidades arquitetônicas de grandes
modelos de linguagem e o Transformer, explorando como eles operam, suas aplicações no mundo real, os
desafios que apresentam e o potencial que possuem para remodelar o futuro da PNL e da inteligência artificial.
Arquitetura do Transformador
Conforme mencionado anteriormente, a arquitetura Transformer é um componente crucial de muitos
modelos de processamento de linguagem natural (PNL) de última geração, incluindo ChatGPT. Foi
apresentado no artigo intitulado “Attention Is All You Need” de Vaswani et al. em 2017. O Transformer
revolucionou a PNL ao fornecer uma maneira eficiente de processar e gerar linguagem usando mecanismos
de autoatenção. Vamos nos aprofundar em uma explicação detalhada da arquitetura central do Transformer.
34
Motivação para Transformador

A motivação para a arquitetura Transformer resultou das limitações e
ineficiências de modelos sequenciais tradicionais, como redes neurais recorrentes (RNNs) e redes de
memória de longo e curto prazo (LSTM). Esses modelos sequenciais processam a entrada da
linguagem, um token por vez, o que leva a vários problemas ao lidar com dependências e paralelização de
longo alcance.
As principais motivações para o desenvolvimento da arquitetura Transformer foram as seguintes:
• Dependências de Longo Prazo: Modelos sequenciais tradicionais como RNNs e LSTMs

enfrentam dificuldades na captura de dependências de longo alcance em sequências
de linguagem. À medida que a distância entre os tokens relevantes aumenta,
estes modelos lutam para reter e propagar informações por longas distâncias.
• Ineficiência na paralelização: RNNs processam entrada de linguagem

sequencialmente, tornando desafiador paralelizar cálculos entre tokens. Esta
limitação dificulta a sua capacidade de aproveitar hardware moderno com
capacidades de processamento paralelo, como GPUs e TPUs, que são cruciais para
treinar modelos grandes de forma eficiente.
• Desaparecimento e explosão de gradiente: RNNs sofrem com o desaparecimento

e explosão de problemas de gradiente durante o treinamento. Em sequências longas,
os gradientes podem tornar-se muito pequenos ou muito grandes, levando a
dificuldades de aprendizagem e convergência.
• Redução da complexidade computacional: Os modelos sequenciais tradicionais possuem

complexidade computacional quadrática em relação ao comprimento da
sequência, tornando-os computacionalmente caros para o processamento de
sequências longas.
A arquitetura Transformer, com seu mecanismo de autoatenção, aborda essas
limitações e oferece diversas vantagens.
Arquitetura
A arquitetura do Transformer representada anteriormente na Figura 3-1 usa uma combinação de autoatenção
empilhada e camadas totalmente conectadas e pontuais no codificador e no decodificador, conforme
representado nas metades esquerda e direita da figura, respectivamente.
35
Figura 3-1. A estrutura codificador-decodificador da arquitetura Transformer. Retirado

de “Atenção é tudo que você precisa”, de Vaswani
Arquitetura do codificador-decodificador
A arquitetura do Transformer emprega a pilha do codificador e a pilha do decodificador, cada uma consistindo
em múltiplas camadas, para processar sequências de entrada e gerar sequências de saída de maneira
eficaz.
Codificador
O codificador representado anteriormente na Figura 3-2 é construído com uma pilha de N = 6 camadas
idênticas, com cada camada compreendendo duas subcamadas. A primeira subcamada emprega um
36
mecanismo de autoatenção com múltiplas cabeças, permitindo que o modelo atenda a diferentes partes da
sequência de entrada simultaneamente. A segunda subcamada é uma rede feedforward simples, totalmente
conectada e posicionada, que processa ainda mais a saída do mecanismo de autoatenção.

de “Atenção é tudo que você precisa”
Para garantir um fluxo tranquilo de informações e facilitar o aprendizado, uma conexão residual
é adotado em torno de cada uma das duas subcamadas. Isso significa que a saída de cada subcamada é
adicionada à entrada original, permitindo que o modelo aprenda e atualize as representações de forma eficaz.
Para manter a estabilidade do modelo durante o treinamento, a normalização da camada é aplicada
para a saída de cada subcamada. Isto padroniza e normaliza as representações, evitando que elas se tornem
muito grandes ou muito pequenas durante o processo de treinamento.
Além disso, para permitir a incorporação de conexões residuais, todas as subcamadas do modelo, incluindo
as camadas de incorporação, produzem saídas de dimensão dmodel = 512. Essa dimensionalidade ajuda a
capturar os intrincados padrões e dependências dentro dos dados, contribuindo para o desempenho geral do
modelo. desempenho.
Decodificador
O decodificador mostrado anteriormente na Figura 3-3 em nosso modelo é estruturado de forma semelhante
ao codificador, consistindo em uma pilha de N = 6 camadas idênticas. Cada camada decodificadora, assim
como a camada codificadora, contém duas subcamadas para autoatenção de múltiplas cabeças e posição inteligente.
37
redes feed-forward. Por outro lado, o decodificador introduz uma terceira subcamada adicional, que utiliza
atenção de múltiplas cabeças para processar a saída da pilha do codificador.

de “Atenção é tudo que você precisa”
O objetivo desta terceira subcamada é permitir que o decodificador acesse e aproveite

as representações contextualizadas geradas pelo codificador. Ao atender à saída do codificador, o
decodificador pode alinhar as sequências de entrada e saída, melhorando a qualidade da sequência de saída
gerada.
Para garantir uma aprendizagem eficaz e um fluxo de informação suave, o descodificador, tal como o
codificador, emprega conexões residuais em torno de cada subcamada, seguidas pela normalização
da camada. Isso permite que o modelo mantenha e propague informações úteis de forma eficaz durante
todo o processo de decodificação.
Em contraste com o mecanismo de autoatenção empregado no codificador, a subcamada de
autoatenção no decodificador está sujeita a uma modificação crucial. Esta alteração foi projetada para evitar
que posições dentro da sequência atendam a posições subsequentes. A lógica por trás dessa técnica de
mascaramento é fundamental no domínio das tarefas sequência a sequência. Seu objetivo principal é
garantir que o decodificador gere tokens de saída de uma maneira conhecida como “autoregressão”.
38
A autorregressão é um conceito fundamental em tarefas de geração de sequência. Isso denota que

durante o processo de decodificação, o decodificador tem a capacidade de atender apenas aos tokens que
gerou anteriormente. Esta restrição deliberada garante que o decodificador siga a ordem sequencial correta
ao produzir tokens de saída.
Em termos práticos, imagine a tarefa de traduzir uma frase de um idioma para outro. A autorregressão
garante que, à medida que o descodificador gera cada palavra da frase traduzida, baseie a sua decisão nas
palavras que já traduziu. Isto imita a progressão natural da geração da linguagem humana, onde o contexto
é construído progressivamente, palavra por palavra. Ao atender apenas aos tokens anteriores, o decodificador
garante que respeita a estrutura semântica e sintática da sequência de saída, mantendo coerência e fidelidade
à entrada.
Em essência, a autorregressão é o mecanismo que permite ao decodificador “lembrar” o que gerou até o
momento, garantindo que cada token subsequente seja contextualmente relevante e posicionado adequadamente
dentro da sequência. Ele desempenha um papel fundamental no sucesso de tarefas sequência a sequência, onde
manter a ordem correta de geração de tokens é de extrema importância.
Para conseguir isso, as incorporações de saída do decodificador são deslocadas em uma posição.
Como resultado, as previsões para a posição “i” na sequência de saída só podem depender das saídas
conhecidas em posições inferiores a “i”. Esse mecanismo garante que o modelo gere os tokens de saída de
forma autorregressiva, um token por vez, sem acesso às informações dos tokens futuros.
Ao incorporar essas modificações na pilha de decodificadores, nosso modelo pode efetivamente

processar e gerar sequências de saída em tarefas sequência a sequência, como tradução automática
ou geração de texto. O mecanismo de atenção sobre a saída do codificador capacita o decodificador a
alinhar e compreender contextualmente a entrada, enquanto o mecanismo de decodificação autorregressiva
garante a geração coerente de tokens de saída com base no contexto aprendido.
Atenção
Uma função de atenção no contexto da arquitetura Transformer pode ser definida
como um mapeamento entre um vetor de consulta e um conjunto de pares chave-valor, resultando em

um vetor de saída. Esta função calcula os pesos de atenção entre a consulta e cada chave do conjunto e
depois usa esses pesos para calcular uma soma ponderada dos valores correspondentes.
39
Aqui está uma explicação passo a passo da função de atenção:
Entradas
• Vetor de Consulta (Q): A consulta representa o elemento ao qual

quero participar. No contexto do Transformer, normalmente é uma palavra ou
token que o modelo está processando em um determinado intervalo de tempo.
• Vetores Chave (K): O conjunto de vetores chave representa os elementos que a

consulta atenderá. No Transformer, geralmente são incorporações de outras
palavras ou tokens na sequência de entrada.
• Vetores de valores (V): O conjunto de vetores de valores contém as informações

associadas a cada chave. No Transformer, essas também são as
incorporações das palavras ou tokens na sequência de entrada.
Calculando pontuações de atenção
• A função de atenção calcula pontuações de atenção, que medem

a relevância ou semelhança entre a consulta e cada chave do conjunto.
• Isso normalmente é feito considerando o produto escalar entre a consulta

vetor (Q) e cada vetor chave (K), capturando a semelhança entre a consulta e
cada chave.
Calculando Pesos de Atenção
• As pontuações de atenção são transformadas em pesos de atenção por

aplicando a função softmax. A função softmax normaliza as pontuações,
convertendo-as em probabilidades que somam 1.
• Os pesos de atenção representam a importância ou relevância de cada

chave relativa à consulta.
40
Soma Ponderada
• O vetor de saída é calculado como a soma ponderada dos vetores de valor (V),
usando os pesos de atenção como pesos.
• Cada vetor de valor é multiplicado por seu peso de atenção correspondente e todos os
vetores ponderados são somados para produzir o vetor de saída final.
• O vetor de saída captura as informações contextuais dos vetores de valor com base nos
pesos de atenção, representando as informações atendidas relevantes para a
consulta.
O mecanismo de atenção permite que o modelo se concentre seletivamente nos assuntos mais relevantes.
partes da sequência de entrada durante o processamento de cada elemento (consulta). Essa capacidade
de atender informações relevantes de diferentes partes da sequência é um fator chave para o sucesso do
Transformer em diversas tarefas de processamento de linguagem natural, pois permite que o modelo
capture dependências de longo alcance e relacionamentos contextuais de maneira eficaz.
Atenção ao produto escalado em escala
O mecanismo de atenção específico mostrado na Figura 3-4 empregado no Transformer é chamado de

“Atenção de Produto Pontual em Escala”, que é representado na imagem anterior. Vamos detalhar como
funciona a atenção do produto escalado em escala:
Figura 3-4. A estrutura de atenção de produto escalado da arquitetura

Transformer Extraído de “Atenção é tudo que você precisa”
41
Entrada e Matrizes
• A entrada para Scaled Dot-Product Attention consiste em consultas (Q), chaves (K) e
valores (V), cada um representado como vetores de dimensão dk e dv.
• Para cada palavra na sequência de entrada, criamos três vetores: uma consulta
vetor, um vetor chave e um vetor de valor.
• Esses vetores são aprendidos durante o processo de treinamento e representam

as incorporações aprendidas dos tokens de entrada.
Produto escalar e escala
• O Scaled Dot-Product Attention calcula pontuações de atenção por

realizando o produto escalar entre o vetor de consulta (Q) e cada vetor chave
(K).
• O produto escalar mede a semelhança ou relevância entre o

consulta e cada chave.
• O produto escalar de dois vetores é o resultado da soma dos produtos

elemento a elemento de seus componentes correspondentes.
• Para estabilizar o processo de aprendizagem e evitar valores muito grandes no

produto escalar, os produtos escalares são reduzidos dividindo-se pela raiz
quadrada da dimensão do vetor chave (`ÿdk`).
• Este fator de escala de `ÿ1/dk` é crucial para alcançar estabilidade e

cálculos de atenção eficientes.
Softmax e pesos de atenção
• Após calcular os produtos escalares escalados, aplicamos a função softmax

para transformá-los em pesos de atenção.
• A função softmax normaliza as pontuações de atenção, convertendo-as em

probabilidades que somam 1.
42
• Os pesos de atenção indicam a importância ou relevância de cada

chave em relação à consulta atual.
• Pesos de atenção mais elevados indicam que o valor correspondente contribuirá mais
para o vetor de contexto final.
Formulação Matricial e Eficiência

• A atenção de produto escalado é projetada para computação eficiente
usando operações matriciais.
• Em aplicações práticas, a função de atenção é executada em um conjunto de

consultas (agrupadas em uma matriz Q), chaves (agrupadas em uma matriz K)
e valores (empacotadas em uma matriz V) simultaneamente.
• A matriz de resultados resultante é então calculada da seguinte forma:
Atenção(Q, K, V) = softmax(QK^T / ÿdk) * V
Onde as matrizes Q são consultas, K são chaves e V são valores.
• Esta formulação de matriz permite matriz altamente otimizada

operações de multiplicação, tornando a computação mais eficiente e escalável.
A atenção dimensionada do produto ponto provou ser um componente crítico na

arquitetura do Transformer, permitindo que o modelo lide com dependências de longo alcance e
informações contextuais de maneira eficaz. Ao atender às informações relevantes na sequência
de entrada, o Transformer pode criar representações contextualizadas para cada palavra, levando a
um desempenho notável em diversas tarefas de processamento de linguagem natural, incluindo
tradução automática, geração de texto e compreensão da linguagem. O uso de operações matriciais
aumenta ainda mais a eficiência computacional da Atenção ao Produto Pontual Escalado, tornando o
Transformer um modelo poderoso para processar sequências de diferentes comprimentos e
complexidades.
Atenção Multi-Cabeça
A atenção de múltiplas cabeças mostrada anteriormente na Figura 3-5 é uma extensão da

Atenção de Produto Pontual Escalada usada na arquitetura do Transformer. Aumenta o poder
expressivo do mecanismo de atenção aplicando vários conjuntos de cálculos de atenção
43
em paralelo, permitindo que o modelo capture diferentes tipos de dependências e relacionamentos

na sequência de entrada.
Figura 3-5. A estrutura de atenção com vários cabeçotes da

arquitetura Transformer Extraída de “Attention Is All You Need”
No artigo original do Transformer (“Atenção é tudo que você precisa”), os autores introduziram
o conceito de atenção multicabeça para superar as limitações da atenção unidirecional, como a restrição a
um único padrão de atenção para todas as palavras. A atenção multicabeças permite que o modelo atenda a
diferentes partes da entrada simultaneamente, permitindo capturar diversos padrões e dependências.
Veja como funciona a atenção multicabeças:
Entrada e projeções lineares

• Como na atenção de produto escalar escalar, a atenção multicabeças toma como entrada
consultas (Q), chaves (K) e valores (V), com cada um representado como vetores de
dimensão dk e dv.
• Em vez de usar as mesmas projeções aprendidas para todos os cabeçalhos de atenção,

as consultas de entrada, chaves e valores são projetados linearmente diversas
vezes para criar diferentes conjuntos de vetores de consulta, chave e valor para cada
cabeçalho de atenção.
44
Várias cabeças de atenção
• A atenção multicabeças introduz múltiplas cabeças de atenção, normalmente indicadas

por “h”.
• Cada cabeça de atenção tem seu próprio conjunto de projeções lineares para criar
vetores distintos de consulta, chave e valor.
• O número de cabeças de atenção, indicado como “h”, é um hiperparâmetro e pode ser

ajustado com base na complexidade da tarefa e na capacidade do modelo.
Atenção de produto escalado por cabeça
• Para cada cabeça de atenção, o campo de atenção do produto escalado
O mecanismo é aplicado de forma independente, calculando pontuações de atenção,

dimensionando e calculando pesos de atenção como de costume.
• Isso significa que para cada cabeçalho, um vetor de contexto separado é derivado usando
os pesos de atenção.
Concatenação e Projeção Linear
• Depois de calcular os vetores de contexto para cada núcleo de atenção, eles são
concatenados em uma única matriz.
• A matriz concatenada é então projetada linearmente na dimensão de produção final.
Flexibilidade do modelo
• Ao empregar múltiplas cabeças de atenção, o modelo ganha flexibilidade na captura de

diferentes dependências e padrões na sequência de entrada.
• Cada chefe de atenção pode aprender a focar em diferentes aspectos da entrada,

permitindo que o modelo extraia informações diversas e complementares.
A atenção multicabeças é um mecanismo poderoso que aprimora a capacidade expressiva da arquitetura do

Transformer. Ele permite que o modelo lide com vários padrões de linguagem, dependências e relacionamentos,
levando a um desempenho superior em processos naturais complexos.
45
tarefas de processamento de linguagem. A combinação de atenção de produto escalado com múltiplas

cabeças de atenção tem sido um fator chave no sucesso do Transformer e em sua capacidade de superar
modelos anteriores de última geração em uma ampla gama de tarefas de PNL.
A arquitetura do Transformer utiliza a atenção de múltiplas cabeças de três maneiras distintas, cada
uma servindo a um propósito específico no funcionamento do modelo:
1. Atenção do codificador-decodificador:
• Nas camadas de atenção do codificador-decodificador, as consultas são

gerado a partir da camada decodificadora anterior, representando o contexto
da etapa de decodificação atual.
• As chaves e valores de memória são derivados da saída do codificador, representando

a sequência de entrada codificada.
• Isso permite que cada posição no decodificador atenda

posições na sequência de entrada, permitindo que o modelo alinhe
informações relevantes da entrada para a saída durante o processo de
decodificação.
• Esse mecanismo de atenção imita a atenção típica do codificador-decodificador

usada em modelos sequência a sequência, que é fundamental em tarefas
como tradução automática.
2. Autoatenção do codificador:
• No codificador, são aplicadas camadas de autoatenção, onde todas as chaves,

valores e consultas são derivadas da saída da camada anterior no
codificador.
• Cada posição no codificador pode atender a todas as posições na camada anterior

do codificador, permitindo que o modelo capture efetivamente dependências
e relacionamentos contextuais dentro da sequência de entrada.
• A autoatenção do codificador é crucial para que o modelo entenda o
interdependências de palavras na sequência de entrada.
3. Autoatenção do decodificador com mascaramento:
• O decodificador também contém camadas de autoatenção, mas com um nível crítico

diferença da autoatenção do codificador.
46
• No mecanismo de autoatenção do decodificador, cada posição no

decodificador pode atender a todas as posições no decodificador
até aquela posição inclusive.
• No entanto, para preservar a propriedade autoregressiva (garantindo que

cada palavra é gerada na sequência correta), o modelo precisa evitar o
fluxo de informações para a esquerda no decodificador.
• Para conseguir isso, a entrada para a função softmax (que

calcula pesos de atenção) é mascarado pela definição de certos valores
como -ÿ (infinito negativo), tornando algumas conexões ilegais.
• O mascaramento evita que o modelo atenda a posições que violariam

a natureza autoregressiva do decodificador, garantindo a geração
de palavras na ordem correta durante as tarefas de geração de texto.
Redes Feed-Forward posicionadas

Redes feed-forward posicionadas (FFNs) são um componente essencial da arquitetura do
Transformer, usadas nas camadas do codificador e do decodificador. Eles desempenham um
papel fundamental na introdução de não linearidade e complexidade ao modelo, processando
cada posição na sequência de entrada de forma independente e idêntica.
Exemplo:
Dada uma sequência de entrada X = {x_1, x_2, ..., x_seq_len} de forma (seq_len, d_model),
onde seq_len é o comprimento da sequência e d_model é a dimensão dos embeddings da palavra
(por exemplo, d_model = 512):
1. Arquitetura Feed-Forward:
A rede feed-forward posicionada consiste em duas transformações lineares

com uma função de ativação ReLU aplicada elemento a elemento entre elas:
*
FFN_1(X) = máx(0, X W1 + b1)
FFN_Saída = FFN_1(X) * W2 + b2
47
Aqui, FFN_1 representa a saída após a primeira transformação

linear com pesos W1 e desvios b1. A função de ativação ReLU introduz
a não linearidade definindo os valores negativos como zero, deixando os
valores positivos inalterados. A saída final FFN_Output é obtida após a
segunda transformação linear com pesos W2 e desvios b2. Esta saída é
então adicionada elemento a elemento à entrada como parte de uma conexão
residual.
2. Dimensionalidade:
A entrada e a saída das redes feed-forward posicionadas têm uma

dimensionalidade de d_model = 512, o que é consistente com a palavra
embeddings no modelo Transformer. A camada interna da rede feed-forward
tem uma dimensionalidade de df f = 2048.
3. Compartilhamento de parâmetros:
Embora as transformações lineares sejam consistentes em vários
posições na sequência, cada camada emprega parâmetros distintos que podem

ser aprendidos. Este projeto também pode ser pensado como duas
convoluções unidimensionais com tamanho de kernel 1.
Redes feed-forward posicionadas permitem que o Transformer
modelo para capturar padrões complexos e dependências dentro da

sequência de entrada, complementando o mecanismo de atenção.
Eles introduzem a não linearidade no modelo, permitindo-lhe aprender e
processar informações de forma eficaz, o que contribuiu para o desempenho
impressionante do Transformer em diversas tarefas de processamento de
linguagem natural.
Codificação de posição
A codificação posicional mostrada na Figura 3-6 é um componente crítico da arquitetura do Transformer,

introduzida para enfrentar o desafio de incorporar a informação posicional de palavras em uma
sequência. Ao contrário das redes neurais recorrentes tradicionais (RNNs) que capturam inerentemente a
ordem sequencial das palavras, os Transformers operam em toda a sequência de entrada simultaneamente
usando a autoatenção. No entanto, como a autoatenção não considera inerentemente a ordem das palavras,
a codificação posicional é necessária para fornecer ao modelo as informações posicionais.
48
Figura 3-6. A codificação de posição da arquitetura do Transformer extraída de “Attention Is

All You Need”
Importância da codificação posicional:
• Na ausência de codificação posicional, o Transformer trataria

a entrada como um “saco de palavras” sem qualquer noção de ordem das palavras,
o que poderia resultar na perda de informações sequenciais.
• Com a codificação posicional, o Transformer pode distinguir entre palavras em

posições diferentes, permitindo ao modelo compreender as posições relativas e
absolutas das palavras dentro da sequência.
49
Fórmula para codificação posicional:

A codificação posicional é adicionada diretamente aos embeddings de entrada do Transformer.
Consiste em funções senoidais de diferentes frequências para codificar a posição de cada palavra na
sequência. A fórmula para a codificação posicional é a seguinte:
PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
Onde
– “PE(pos, 2i)” representa a i-ésima dimensão do posicionamento

codificação para a palavra na posição “pos.”
– “PE(pos, 2i+1)” representa a (i+1)-ésima dimensão do posicional

codificação para a palavra na posição “pos.”
– “i” é o índice da dimensão, variando de 0 a “d_model - 1”.
– A variável pos representa a posição da palavra na sequência.
– “d_model” é a dimensão da palavra embeddings (por exemplo,

d_model = 512).
Interpretação
O uso das funções seno e cosseno na codificação posicional introduz um padrão cíclico,
permitindo ao modelo aprender diferentes distâncias posicionais e generalizando para sequências
de comprimentos variados. A codificação posicional é adicionada aos embeddings de entrada antes
de ser passada pelas camadas codificadora e decodificadora do Transformer.
A codificação posicional enriquece os embeddings de palavras com informações posicionais,
permitindo que o Transformer capture as relações temporais da sequência e processe
efetivamente os dados de entrada, tornando-o um dos componentes essenciais que contribui
para o sucesso do Transformer em tarefas de processamento de linguagem natural.
50
Vantagens e limitações da arquitetura do transformador

Como qualquer outro projeto arquitetônico, o Transformer tem suas vantagens e limitações.
Vamos explorá-los:
Vantagens
1. Paralelização e Eficiência: O mecanismo de autoatenção do Transformer
permite o processamento paralelo de sequências de entrada, tornando-o
altamente eficiente e adequado para computação distribuída, levando a tempos
de treinamento mais rápidos em comparação com modelos sequenciais.
como RNNs.
2. Dependências de longo prazo: graças à autoatenção

mecanismo, o modelo pode capturar efetivamente dependências de
longo alcance entre palavras em uma sequência.
3. Escalabilidade: o mecanismo de atenção do Transformer exibe

complexidade computacional constante em relação ao comprimento da
sequência, tornando-o mais escalável do que os modelos sequenciais
tradicionais, que muitas vezes sofrem com o aumento dos custos
computacionais para sequências mais longas.
4. Transferir aprendizagem com Transformer: The Transformer

a arquitetura demonstrou transferibilidade excepcional na aprendizagem.
Modelos pré-treinados, como BERT e GPT, servem como fortes pontos de
partida para diversas tarefas de processamento de linguagem natural. Ao
ajustar esses modelos em tarefas específicas, pesquisadores e profissionais
podem alcançar resultados de última geração sem modificações
arquitetônicas significativas. Essa transferibilidade levou à ampla adoção e
ao rápido avanço dos aplicativos de PNL.
5. Incorporações contextuais: o Transformer produz

incorporações de palavras contextualizadas, o que significa que o
significado de uma palavra pode mudar com base em seu contexto na frase.
Esse recurso melhora a capacidade do modelo de compreender a
semântica e os relacionamentos das palavras.
51
6. Processamento Global de Informações: Ao contrário das RNNs, que processam

informações sequenciais de forma sequencial e pode perder contexto ao longo
do tempo, o Transformer processa toda a sequência de entrada
simultaneamente, permitindo o processamento global de informações.
Limitações
1. Sobrecarga de atenção para sequências longas: embora o Transformer seja eficiente

para paralelização, ele ainda enfrenta sobrecarga de atenção para sequências
muito longas. O processamento de sequências extremamente longas pode
consumir recursos computacionais e memória significativos.
2. Falta de ordem sequencial: O Transformer processa palavras em paralelo, o que

pode não explorar totalmente a natureza sequencial inerente de algumas
tarefas, levando a um desempenho potencial abaixo do ideal para tarefas onde a
ordem é muito importante. Embora a codificação posicional seja usada para fornecer
informações posicionais ao modelo, ela o faz de maneira diferente das RNNs
tradicionais. Embora ajude o Transformer a entender a ordem da sequência, ele
não a captura explicitamente como fazem os RNNs. É importante observar essa
distinção para entender como os Transformers lidam com informações
sequenciais.
3. Parametrização excessiva: O transformador possui um grande número

de parâmetros, especialmente em modelos profundos, o que pode tornar
o treinamento mais desafiador, especialmente com dados e recursos
computacionais limitados.
4. Incapacidade de lidar com entradas não estruturadas: O Transformer foi

projetado principalmente para sequências, como sentenças em linguagem
natural. Pode não ser a melhor escolha para entradas não estruturadas, como
imagens ou dados tabulares.
5. Comprimento de entrada fixo: na maior parte, o transformador

a arquitetura requer sequências de entrada de comprimento fixo devido ao uso de
codificações posicionais. O tratamento de sequências de comprimento variável pode
exigir pré-processamento ou preenchimento adicional. É importante notar que
existem algumas variantes adaptativas de comprimento da arquitetura Transformer
que oferecem mais flexibilidade nesse aspecto.
52
Conclusão
Concluindo, grandes modelos de linguagem (LLMs) baseados na arquitetura Transformer surgiram
como um avanço inovador no domínio do processamento de linguagem natural. Sua capacidade
de capturar dependências de longo alcance, combinada com um extenso pré-treinamento em vastos
conjuntos de dados, revolucionou as tarefas de compreensão de linguagem natural. Os LLMs
demonstraram um desempenho notável em vários desafios relacionados ao idioma, superando
as abordagens tradicionais e estabelecendo novos padrões de referência.
Além disso, apresentam grande potencial na geração de linguagem e criatividade, capazes de
produzir textos humanizados e histórias envolventes. No entanto, juntamente com as suas inúmeras
vantagens, as considerações éticas são importantes, incluindo preocupações relativas a
preconceitos, desinformação e potencial utilização indevida. Pesquisadores e engenheiros estão
trabalhando ativamente para enfrentar esses desafios para garantir a implantação responsável da
IA. Olhando para o futuro, o futuro dos LLMs e dos Transformers promete oportunidades
interessantes, com aplicações potenciais em diversos domínios, como educação, saúde, suporte
ao cliente e geração de conteúdo. À medida que o campo continua a evoluir, os LLMs estão preparados
para remodelar a forma como interagimos e compreendemos a linguagem, abrindo novas
possibilidades de impacto transformador nos próximos anos.
53
CAPÍTULO 4
A arquitetura ChatGPT:
Uma exploração aprofundada
da conversação do OpenAI
Modelo de linguagem
Nos últimos anos, avanços significativos no processamento de linguagem natural (PNL) abriram caminho
para agentes conversacionais mais interativos e humanos. Entre esses desenvolvimentos inovadores
está o ChatGPT, um modelo de linguagem avançado criado pela OpenAI. ChatGPT é baseado na arquitetura
GPT (Generative Pre-trained Transformer) e foi projetado para envolver-se em conversas dinâmicas e
contextualmente relevantes com os usuários.
ChatGPT representa uma mudança de paradigma no mundo da IA conversacional, permitindo aos

usuários interagir com um modelo de linguagem de uma forma mais conversacional. Sua capacidade de
compreender o contexto, gerar respostas coerentes e manter o fluxo da conversa cativou pesquisadores e
usuários. Como a mais recente iteração dos modelos de PNL, o ChatGPT tem o potencial de transformar a
forma como interagimos com a tecnologia e a informação.
Este capítulo explora os meandros da arquitetura ChatGPT, investigando seus mecanismos
subjacentes, processo de treinamento e capacidades. Descobriremos como o ChatGPT aproveita o poder
dos transformadores, da autoatenção e de grandes quantidades de dados de pré-treinamento para se
tornar um conversador experiente. Além disso, discutiremos os pontos fortes e as limitações do ChatGPT,
juntamente com as considerações éticas que envolvem seu uso. Com o ChatGPT na vanguarda da IA
conversacional, este capítulo pretende lançar luz sobre o fascinante mundo dos modelos de linguagem de
última geração e seu impacto no futuro da interação humano-computador.
55
Capítulo 4 A ARQUITETURA CHATGPT: UMA EXPLORAÇÃO APROFUNDADA DA CONVERSACIONAL DA OPENAI

MODELO DE LÍNGUA
A evolução dos modelos GPT

A evolução dos modelos GPT (Generative Pre-trained Transformer) foi marcada por uma série de
avanços significativos. Cada nova versão do modelo normalmente apresentou um aumento no número
de parâmetros e foi treinada em um conjunto de dados mais diversificado e abrangente. Aqui está uma
breve história:
1. GPT-1: O modelo GPT original, introduzido pela OpenAI em

2018, foi baseado no modelo Transformer. Este modelo era composto por
12 camadas, cada uma com 12 cabeças de autoatenção e um total de 117

milhões de parâmetros. Utilizou aprendizagem não supervisionada e foi
treinado no conjunto de dados BookCorpus, uma coleção de 7.000 livros não
publicados.
2. GPT-2: OpenAI lançou GPT-2 em 2019, que marcou um

aumento significativo na escala do modelo. Era composto por 48 camadas e um
total de 1,5 bilhão de parâmetros. Esta versão foi treinada em um corpus
maior de dados de texto extraídos da Internet, cobrindo uma gama mais
diversificada de tópicos e estilos. No entanto, devido a preocupações sobre o
potencial uso indevido, a OpenAI decidiu inicialmente não lançar o modelo
completo, em vez disso lançou versões menores e posteriormente lançou o
modelo completo à medida que essas preocupações eram resolvidas.
3. GPT-3: O GPT-3, introduzido em 2020, marcou outro avanço significativo em escala,

com 175 bilhões de parâmetros e múltiplas camadas de transformador. Este
modelo demonstrou uma capacidade impressionante de gerar texto que se
assemelhava muito à linguagem humana. O lançamento do GPT-3
estimulou um interesse generalizado nas aplicações potenciais de grandes
modelos de linguagem, bem como discussões sobre as implicações éticas e os
desafios de tais modelos poderosos.
4. GPT-4: GPT-4 é um modelo de linguagem multimodal revolucionário com

capacidades que se estendem ao processamento de entradas de texto e
imagem, descrição de humor em imagens e resumo de texto a partir de capturas
de tela. As interações do GPT-4 com interfaces externas permitem
tarefas além da previsão de texto, tornando-o uma ferramenta transformadora

no processamento de linguagem natural e em vários domínios.
56

MODELO DE LÍNGUA
Ao longo desta evolução, um dos temas principais tem sido o poder da escala:
de modo geral, modelos maiores treinados com mais dados tendem a ter melhor desempenho. No entanto,
também tem havido um reconhecimento crescente dos desafios associados a modelos maiores, tais como o
potencial para resultados prejudiciais, o aumento dos recursos computacionais necessários para a
formação e a necessidade de métodos robustos para controlar o comportamento destes modelos.
A arquitetura do transformador: uma recapitulação

Conforme mencionado anteriormente no capítulo anterior, já exploramos detalhadamente a arquitetura do
Transformer mostrada na Figura 4-1. Este resumo conciso serve como uma recapitulação dos principais
componentes para os leitores que já estão familiarizados com a arquitetura do Transformer. Para uma
compreensão mais abrangente, os leitores podem consultar o capítulo anterior, onde a arquitetura do
Transformer foi detalhadamente explicada com seus componentes e mecanismos de funcionamento.
57

MODELO DE LÍNGUA
Figura 4-1. A estrutura codificador-decodificador da arquitetura Transformer

Extraída de “Attention Is All You Need”
Aqui estão algumas dicas importantes a serem lembradas sobre a arquitetura do Transformer:
• A arquitetura Transformer revolucionou o processamento de linguagem natural

com seu mecanismo baseado na atenção.
• Os principais componentes do Transformer incluem a autoatenção

mecanismo, estrutura codificador-decodificador, codificação posicional,
autoatenção de múltiplas cabeças e redes neurais feed-forward.
• A autoatenção permite que o modelo avalie a importância de diferentes

palavras e capturar dependências de longo alcance.
58

MODELO DE LÍNGUA
• A estrutura codificador-decodificador é comumente usada em tarefas de tradução

automática.
• A codificação posicional é usada para incorporar informações de ordem de palavras

na sequência de entrada.
• A autoatenção multicabeças permite que o modelo atenda a diversas partes da entrada

simultaneamente, melhorando sua capacidade de capturar relacionamentos
complexos dentro dos dados.
• As redes neurais feed-forward processam informações das camadas de

atenção.
• Conexões residuais e normalização de camadas estabilizam o treinamento em

arquiteturas profundas.
Arquitetura do ChatGPT
A arquitetura GPT desempenha um papel fundamental na habilitação dos recursos do ChatGPT como
uma IA conversacional interativa. Embora já tenhamos explorado a arquitetura do Transformer no
capítulo anterior, esta seção investiga como ela é especificamente adaptada e otimizada para
interações baseadas em chat no ChatGPT. ChatGPT, como todos os modelos da série GPT, é
baseado em uma arquitetura Transformer, aproveitando especificamente uma estrutura “somente
decodificador” do modelo Transformer original. Além disso, ChatGPT incorpora um componente
crucial conhecido como “aprendizado por reforço com feedback humano (RLHF)”. RLHF é uma
técnica avançada que aprimora o desempenho do ChatGPT e será abordada em detalhes
posteriormente neste capítulo, proporcionando uma compreensão abrangente de sua importância,
conforme mostrado na Figura 4-2.
A Figura 4-2 apresenta um diagrama da arquitetura do ChatGPT, ilustrando detalhadamente
seu processo de treinamento. Este diagrama fornece uma visão abrangente de como o ChatGPT
aprende e refina seus recursos durante a fase de treinamento. Ele mostra o fluxo de dados, os
componentes internos do modelo e o pipeline de treinamento, oferecendo insights sobre o
desenvolvimento do modelo.
59

MODELO DE LÍNGUA
Figura 4-2. Arquitetura ChatGPT
Aqui está uma visão geral dos principais elementos:
1. Modelos de transformadores:
Os modelos de transformadores são um tipo de modelo usado em aprendizado de
máquina, principalmente na área de processamento de linguagem natural (PNL). Eles
foram introduzidos por Vaswani et al. no artigo “Atenção é tudo que você precisa”. A
principal vantagem dos modelos Transformer é que eles processam dados de
entrada em paralelo, em vez de sequencialmente, permitindo uma computação
mais eficiente e a capacidade de lidar com sequências de dados mais longas.
Eles também introduziram o conceito de “atenção”, permitindo ao modelo pesar a
importância de diferentes palavras na entrada ao gerar uma saída.
2. Estrutura somente decodificador:
O modelo inicial do Transformer apresentado por Vaswani et al. incluía

duas partes: um codificador, que processa a entrada, e um decodificador, que gera
a saída. No entanto, modelos GPT como ChatGPT usam apenas a parte do
decodificador mostrada na Figura 4-3 da arquitetura do Transformer.
60

MODELO DE LÍNGUA
Figura 4-3. A estrutura do decodificador da arquitetura do Transformer Extraída de “Attention

Is All You Need”
Isso resulta em uma estrutura unidirecional, onde cada token (ou

palavra) só pode atender às posições anteriores na sequência de entrada.
Este design permite que os modelos GPT gerem texto uma
palavra por vez, usando as palavras já geradas para informar a
geração da próxima palavra. Esta escolha de design é impulsionada
pela natureza da tarefa de IA conversacional, onde o modelo precisa
gerar respostas com base no histórico de conversação de entrada.
A camada decodificadora no ChatGPT é responsável por gerar o

próximo token na sequência de resposta dado o contexto do
histórico da conversa. Ele emprega uma combinação de redes neurais
de autoatenção e feed-forward para processar os tokens de entrada e
gerar respostas significativas e contextualmente relevantes.
61

MODELO DE LÍNGUA
O mecanismo de autoatenção dentro do decodificador permite que o
modelo para capturar dependências e relacionamentos de longo alcance entre

tokens no histórico de conversas. Isto é fundamental para compreender o
contexto da conversa em curso e produzir respostas coerentes que se
alinhem com o diálogo anterior.
A codificação posicional é usada para incorporar informações de ordem de palavras

na sequência de entrada. Isso garante que o modelo compreenda as posições
relativas dos tokens no histórico da conversa, permitindo gerar
respostas contextualmente apropriadas.
Usar uma arquitetura somente decodificador simplifica os processos de

treinamento e inferência do modelo. O ajuste fino do decodificador para tarefas
de conversação torna-se mais simples, pois o foco está exclusivamente na geração
de respostas com base no contexto fornecido.
Além disso, a configuração apenas do decodificador no ChatGPT o torna mais

eficiente para interações em tempo real. Ao eliminar o codificador, os recursos
computacionais ficam focados exclusivamente no decodificador, permitindo
tempos de resposta mais rápidos durante as conversas.
Além disso, o ChatGPT aproveita técnicas como aprendizagem por reforço a

partir de feedback humano para otimizar o desempenho do decodificador.
O ajuste fino do modelo com respostas e feedback gerados por humanos
alinha os resultados do modelo com as preferências humanas desejadas,
melhorando a qualidade do resultado gerado.
respostas.
No geral, a decisão de usar uma arquitetura somente decodificadora no

ChatGPT é uma escolha técnica cuidadosamente considerada, adaptada ao
contexto de IA conversacional. Ele permite que o modelo gere respostas
precisas e contextualmente apropriadas de forma eficiente, tornando-o uma
ferramenta poderosa para aplicativos interativos e envolventes baseados em chat.
62

MODELO DE LÍNGUA
3. Mecanismo de Autoatenção:
O mecanismo de autoatenção é um elemento-chave da arquitetura do Transformer.

Na autoatenção, cada token na entrada pode interagir com todos os outros tokens,
em vez de apenas tokens adjacentes ou próximos. Isso permite que o
modelo capture melhor o contexto de cada palavra em uma frase. No ChatGPT, o
mecanismo de autoatenção é utilizado nas camadas decodificadoras para
capturar dependências e relacionamentos entre tokens no histórico de

conversas, permitindo que o modelo entenda o contexto e gere respostas
relevantes.
Veja como funciona o mecanismo de autoatenção no ChatGPT:
• Compreensão contextual: Em uma conversa, cada palavra ou token depende de outras

palavras no histórico da conversa para obter seu significado contextual. O
mecanismo de autoatenção permite que o modelo preste atenção a todos os
tokens no histórico de conversas e avalie sua importância na geração do
próximo token.
Isto ajuda o modelo a compreender o contexto em curso e a produzir
respostas coerentes e contextualmente relevantes.
• Pontuações de Atenção: Durante a autoatenção, o modelo calcula

pontuações de atenção que indicam a importância de cada token em relação
ao token atual que está sendo processado. Os tokens que são mais relevantes
no contexto do token atual recebem pontuações de atenção mais altas, enquanto
os tokens menos relevantes recebem pontuações mais baixas. Essa ponderação
dinâmica de tokens permite que o modelo se concentre nas partes mais relevantes
do histórico da conversa para gerar a resposta.
• Capturando Dependências de Longo Alcance: O mecanismo de autoatenção

permite que o ChatGPT capture dependências de longo alcance
no histórico de conversas. Ao contrário das redes neurais recorrentes
tradicionais, que possuem memória limitada, o mecanismo de autoatenção
permite que o modelo considere todos os tokens
no histórico da conversa, independentemente da distância do token atual. Esta

capacidade é crucial para compreender o fluxo da conversa e gerar respostas
que mantenham a coerência em diálogos prolongados.
63

MODELO DE LÍNGUA
• Codificação posicional: Na arquitetura Transformer, incluindo ChatGPT, a

codificação posicional é introduzida para incorporar a ordem dos tokens
no processo de autoatenção. A codificação posicional garante que o
modelo entenda a ordem sequencial dos tokens no histórico da conversa,
permitindo diferenciar entre diferentes posições no diálogo e fazer
previsões contextualmente apropriadas.
4. Estrutura em camadas: a arquitetura do ChatGPT consiste em vários

camadas desses decodificadores Transformer empilhadas umas sobre as outras.
Cada camada aprende a representar os dados de entrada de uma forma que
ajuda a camada subsequente a executar melhor a tarefa. O número de
camadas pode variar entre diferentes versões do GPT; por exemplo,
GPT-3 possui 96 camadas de transformador.
Veja como funciona a estrutura em camadas no ChatGPT:
• Camadas decodificadoras empilhadas: ChatGPT emprega uma arquitetura

somente decodificadora, o que significa que apenas as camadas
decodificadoras são usadas e as camadas codificadoras são omitidas. O
histórico de conversação serve como entrada para o decodificador, e o
objetivo do modelo é gerar o próximo token na sequência de respostas com
base neste contexto de entrada. As camadas do decodificador são empilhadas
umas sobre as outras e o número de camadas pode variar de acordo com
a configuração do modelo.
• Extração hierárquica de recursos: cada camada decodificadora no ChatGPT

executa uma série de operações nos tokens de entrada. O mecanismo
de autoatenção em cada camada permite que o modelo atenda a todos os
tokens do histórico de conversas, capturando informações e
dependências relevantes em toda a sequência. Essa extração hierárquica de
recursos permite que o modelo refine progressivamente sua compreensão do
contexto à medida que se move pelas camadas.
64

MODELO DE LÍNGUA
• Codificação posicional: Para lidar com a natureza sequencial dos dados de entrada, a
codificação posicional é incorporada em cada camada. Essa codificação
fornece informações sobre a ordem e a posição dos tokens no histórico da
conversa, garantindo que o modelo possa diferenciar os tokens e compreender
suas posições no diálogo.
• Redes Neurais Feed-Forward: Após a etapa de autoatenção, o modelo processa

ainda mais os tokens usando redes neurais feed-forward dentro de cada
camada. Essas redes aplicam transformações lineares e ativações não lineares
aos tokens, permitindo que o modelo capture padrões e relacionamentos complexos
dentro da conversa.
• Conexões Residuais e Normalização de Camada: Residual

conexões e normalização de camada são usadas em cada camada
decodificadora para estabilizar o processo de treinamento e facilitar o fluxo de
informações. As conexões residuais, às vezes chamadas de conexões
de salto, permitem que o modelo retenha informações importantes das camadas
anteriores e fornecem um mecanismo para “pular” algumas camadas zerando os
pesos, resultando em um modelo superespecificado que pode aprender a dispersão.
A normalização de camadas complementa isso normalizando as entradas e saídas
de cada camada, contribuindo para melhorar a convergência de treinamento.
Ao empilhar várias camadas de decodificação, o ChatGPT pode capturar

padrões cada vez mais complexos e dependências contextuais no histórico de
conversas. Esta estrutura em camadas é crucial para a capacidade do modelo de
gerar respostas coerentes e contextualmente apropriadas em interações
baseadas em chat. A extração hierárquica de recursos e o refinamento
progressivo das informações permitem que o ChatGPT tenha um desempenho
eficaz em uma ampla gama de tarefas de processamento de linguagem
natural, tornando-o uma poderosa ferramenta de IA conversacional.
65

MODELO DE LÍNGUA
5. Codificações posicionais: como os modelos Transformer processam todos os tokens de
entrada em paralelo, eles não capturam inerentemente a ordem sequencial dos
dados. Para explicar isso, os modelos GPT utilizam codificações posicionais, que
fornecem informações sobre a posição de cada palavra na sequência. Isso permite que
o modelo entenda a ordem das palavras e faça previsões precisas com base nessa
ordem. Portanto, embora as codificações posicionais sejam essenciais para o
funcionamento do ChatGPT e de outros modelos do Transformer, elas não são
exclusivas do ChatGPT e são uma parte fundamental da própria arquitetura do
Transformer.
6. Autoatenção Mascarada: No decodificador, a autoatenção
O mecanismo é modificado para evitar que os tokens atendam aos tokens futuros na
sequência de entrada. Isso é conhecido como autoatenção “mascarada”. A
autoatenção mascarada é um componente crucial da arquitetura do Transformer e

também é usada no ChatGPT para lidar com
dados sequenciais de forma eficiente. No contexto do ChatGPT, a autoatenção
mascarada permite que o modelo atenda apenas aos tokens relevantes dentro
da sequência de entrada, evitando o fluxo de informações de posições futuras. Isto é
particularmente importante durante a geração de texto autorregressivo para manter a
causalidade e garantir que o modelo gere texto sequencialmente, um token por vez.
• Autoatenção Mascarada no ChatGPT: No decodificador do transformador
camadas do ChatGPT, cada token atende a todos os outros tokens na sequência de
entrada, incluindo ele mesmo, usando autoatenção. No entanto, para evitar o
vazamento de informações de tokens futuros durante a geração, um mecanismo de
mascaramento é aplicado à matriz de autoatenção.
• Mecanismo de Mascaramento: O mecanismo de mascaramento envolve a aplicação de uma
máscara triangular à matriz de autoatenção, onde todos os elementos abaixo da
diagonal principal são definidos como infinito negativo (ou um valor negativo muito
grande). Isso efetivamente mascara os tokens futuros e permite que o token
atenda apenas aos tokens anteriores e a si mesmo.
66

MODELO DE LÍNGUA
• Exemplo: Vamos considerar um exemplo de geração da frase “Eu

adoro processamento de linguagem natural” usando ChatGPT.
Durante o processo de geração, quando o modelo está prevendo a
palavra “linguagem”, ele deve atender apenas aos tokens
anteriores “eu”, “amor”, “natural” e a própria “linguagem”. A atenção à
palavra “processamento” deve ser mascarada para manter a causalidade.
• Benefício na geração de texto autorregressivo: autoatenção mascarada

garante que o ChatGPT gere texto de forma autorregressiva, onde a
previsão de cada token depende apenas dos tokens gerados
anteriormente. Isso é crucial para gerar frases coerentes e
gramaticalmente corretas. Sem mascaramento, o modelo pode ter
acesso a informações de tokens futuros, levando a resultados
incorretos e sem sentido.
7. Aprendizagem por Reforço com Feedback Humano (RLHF)
Figura 4-4. Retirado de “modelos de linguagem de treinamento para seguir instruções

com feedback humano”, onde A (explicar a gravidade), B (explicar a guerra) ou C (lua)
é um satélite natural de D (as pessoas foram à lua)
67

MODELO DE LÍNGUA
Aprendizagem por reforço de feedback humano (RLHF) mostrada anteriormente na Figura 4-4
é um componente essencial da arquitetura ChatGPT, desempenhando um papel crucial em seu processo
de ajuste fino e elevando suas capacidades de conversação. A abordagem RLHF permite que o ChatGPT
aprenda com avaliadores humanos e adapte sua geração de linguagem com base em seu feedback. RL, ou
aprendizado por reforço, é um tipo de aprendizado de máquina em que um agente aprende interagindo com
seu ambiente e recebendo feedback na forma de recompensas. Ao contrário da aprendizagem não
supervisionada, onde o modelo aprende com dados não rotulados sem qualquer orientação específica, e da
aprendizagem supervisionada, onde é treinado em dados rotulados com respostas corretas predefinidas, RL
envolve aprendizagem por tentativa e erro:
1. Ajuste fino supervisionado: O ajuste fino supervisionado é uma fase essencial no

desenvolvimento do ChatGPT. Inicialmente, o ChatGPT passa por um
ajuste fino supervisionado, em que treinadores humanos de IA simulam
conversas desempenhando funções de usuário e de assistente de IA.
Durante esse processo, os treinadores têm acesso a sugestões escritas em
modelos para ajudá-los a gerar respostas que se alinhem com os resultados de
conversação desejados.
Este conjunto de dados de diálogo, derivado do ajuste fino supervisionado, é então

combinado com o conjunto de dados InstructGPT, que é transformado em um
formato de diálogo. InstructGPT, um modelo irmão do ChatGPT, tem suas raízes

no fornecimento de respostas detalhadas às solicitações do usuário.
A conexão com a aprendizagem por reforço a partir do feedback humano (RLHF)

torna-se aparente quando consideramos que o RLHF leva este treinamento inicial
supervisionado um passo adiante. O RLHF permite que o ChatGPT aprenda e se
adapte por meio de interações com avaliadores humanos que fornecem feedback,
criando um ciclo de feedback contínuo que refina as respostas do modelo ao
longo do tempo.
Ao compreender esta progressão do ajuste fino supervisionado, influenciado pela

experiência do InstructGPT, até o RLHF, obtemos insights sobre como o ChatGPT
evolui e alinha suas capacidades com as expectativas humanas no domínio da
compreensão e geração de linguagem natural.
68

MODELO DE LÍNGUA
2. Modelo de recompensa: O modelo treinado por meio de aprendizagem
supervisionada é então usado para coletar dados de comparação. Os

treinadores de IA conversam com o chatbot e classificam diferentes modelos
respostas geradas por qualidade. Este conjunto de dados é usado como um modelo
de recompensa para orientar o processo de aprendizagem por reforço.
3. Aprendizagem por reforço via otimização de políticas proximais: A aprendizagem
por reforço por meio de otimização de políticas proximais é uma etapa crucial
no desenvolvimento do ChatGPT. Na RL, uma “política” refere-se a um
conjunto de regras ou estratégias que um agente de IA segue para tomar decisões

num ambiente. Nesse caso, o chatbot, ChatGPT, possui uma “política” que
orienta como ele gera respostas nas conversas.
Durante esta fase, o modelo utiliza dados de comparação para melhorar a sua
política através de um método denominado otimização de política proximal (PPO).
PPO é uma técnica que otimiza a política do chatbot com o objetivo de aumentar a
probabilidade de gerar respostas com melhor classificação e, ao mesmo tempo,
diminuir a probabilidade de gerar respostas com pior classificação.
Para conectar isso ao contexto mais amplo, vamos voltar um pouco.
O ChatGPT começa como um modelo pré-treinado, o que significa que possui um
conhecimento básico do idioma desde o treinamento inicial. Porém, para torná-lo
verdadeiramente comunicativo e responsivo, ele passa por um processo de
ajuste fino, onde refina suas habilidades com base no feedback humano.
A fase de aprendizagem por reforço com PPO faz parte desse processo de
ajuste fino. É como ensinar estratégias de conversação específicas ao
chatbot para garantir que ele forneça respostas de alta qualidade. Então, em
essência, a conexão aqui é que esta etapa de aprendizagem por reforço
refina ainda mais a “política” do ChatGPT para torná-lo melhor na geração de conversas
naturais e envolventes.
O modelo continua a iterar nesse processo, aprendendo com os dados de
comparação e usando o PPO para melhorar as respostas que gera. Este ciclo é
repetido, permitindo ao modelo melhorar continuamente a sua compreensão
e qualidade de resposta com base no feedback humano.
69

MODELO DE LÍNGUA
Desta forma, o RLHF desempenha um papel fundamental na definição do

desempenho do ChatGPT. Ele permite que a OpenAI melhore sistematicamente
o modelo com base no feedback humano direto, ajudando o modelo a evitar
respostas incorretas e a alinhar melhor suas respostas com os valores
humanos.
Esta combinação de aprendizado supervisionado com RLHF fornece uma

estrutura robusta para treinar ChatGPT e modelos semelhantes, combinando
os pontos fortes do aprendizado de máquina tradicional com o feedback
diferenciado que somente humanos podem fornecer.
Para resumir, ChatGPT aproveita a arquitetura Transformer, especificamente

uma estrutura “somente decodificador” e RLHF para processar e gerar texto
com eficiência. O uso da autoatenção permite considerar todo o contexto da
entrada, enquanto as codificações posicionais garantem que a ordem sequencial
das palavras seja capturada. Esses aspectos se combinam para permitir que o
ChatGPT gere textos impressionantemente humanos.
Pré-treinamento e ajuste fino no ChatGPT

No desenvolvimento do ChatGPT, duas etapas cruciais desempenham um papel fundamental na formação
das suas capacidades: pré-treinamento e ajuste fino. O pré-treinamento envolve modelagem de linguagem em
conjuntos de dados massivos para transmitir compreensão básica da linguagem ao modelo, enquanto o
ajuste fino adapta o modelo pré-treinado a tarefas específicas e interações do usuário, tornando-o contextualmente
relevante e eficaz em cenários do mundo real.
Pré-treinamento: aprendendo padrões de linguagem
A fase de pré-treinamento é a etapa inicial na criação do ChatGPT. Durante esta fase, o modelo passa
por aprendizagem não supervisionada em conjuntos de dados extensos e diversos contendo uma ampla
variedade de textos de diversas fontes. Usando a arquitetura Transformer, o ChatGPT aprende a prever a
próxima palavra em uma sequência com base no contexto das palavras anteriores. Ao absorver
grandes quantidades de dados de texto, o modelo internaliza gramática, sintaxe, semântica e relações
contextuais, permitindo gerar respostas coerentes e contextualmente apropriadas durante as interações.
70

MODELO DE LÍNGUA
Ajuste fino: adaptando-se a tarefas específicas
Embora o pré-treinamento forneça ao ChatGPT uma ampla compreensão do idioma, ele não é diretamente
adaptado a tarefas específicas ou interações do usuário. A fase de ajuste fino preenche esta lacuna,
adaptando o modelo pré-treinado a domínios e tarefas específicos. Durante o ajuste fino, o ChatGPT é
exposto a conjuntos de dados específicos de domínio, que podem incluir exemplos rotulados para
aprendizagem supervisionada ou demonstrações de comportamento desejado:
• Adaptação de Domínio: O ajuste fino permite que o ChatGPT adapte seu

conhecimento ao domínio em que será utilizado. Por exemplo, se o ChatGPT
se destina a auxiliar no suporte ao cliente, o ajuste fino pode envolver a exposição
a conversas e consultas de atendimento ao cliente.
• Orientação de interação do usuário: além da adaptação do domínio, o ajuste fino

incorpora orientação de interação do usuário para garantir que o ChatGPT
responda de forma contextual e responsável às entradas do usuário. Isto pode
envolver aprendizagem por reforço a partir do feedback humano para reforçar
comportamentos desejados e desencorajar comportamentos prejudiciais ou inadequados.
respostas.
Aprendizagem Contínua e Melhoria Iterativa
A pré-formação e o aperfeiçoamento não são eventos isolados, mas sim parte de um processo contínuo
de aprendizagem e melhoria contínua. À medida que o ChatGPT interage com os usuários e recebe
feedback, ele pode ajustar ainda mais suas respostas às preferências específicas do usuário e ao contexto
em evolução, melhorando seu desempenho geral e capacidade de resposta.
Incorporações contextuais no ChatGPT

Incorporações contextuais formam a base de modelos de linguagem como ChatGPT. Ao contrário dos
embeddings de palavras tradicionais, como Word2Vec ou GloVe, que atribuem um vetor fixo a cada palavra,
independentemente de seu contexto, os embeddings contextuais fornecem um vetor exclusivo para cada
palavra com base em sua posição e nas palavras ao redor em uma frase.
Para ChatGPT, a incorporação contextual de uma palavra é calculada a partir do mecanismo
de autoatenção do modelo transformador. Dada uma sequência de palavras como entrada, o mecanismo
de autoatenção calcula uma soma ponderada dos embeddings das palavras de entrada,
71

MODELO DE LÍNGUA
onde os pesos são determinados pela semelhança entre a palavra atual e as demais palavras da frase.
Isso produz uma incorporação exclusiva para cada palavra que captura sua função específica na
frase.
O mecanismo de autoatenção é aplicado em múltiplas camadas, permitindo que o modelo
desenvolva representações cada vez mais abstratas da entrada. As saídas da camada final fornecem os
embeddings contextuais usados para gerar a próxima palavra na sequência.
A incorporação contextual de cada palavra incorpora informações de todas as palavras anteriores
na frase, o que permite ao modelo gerar respostas coerentes e contextualmente apropriadas.
Geração de resposta no ChatGPT

Uma vez que os embeddings contextuais são calculados, o ChatGPT utiliza um processo conhecido
como geração autoregressiva para criar respostas que sejam contextualmente apropriadas e
coerentes. Este processo se desenrola da seguinte forma.
Começando com um token especializado de início de sequência, o modelo inicia a
sequência de geração. Ele prevê a próxima palavra na sequência, uma palavra por vez, utilizando
as palavras anteriores como contexto.
Em cada etapa, o modelo calcula uma distribuição de probabilidade em todo o vocabulário
para a próxima palavra, com base na incorporação contextual atual. A escolha da próxima palavra
pode assumir diversas formas: pode ser a palavra com maior probabilidade, conhecida como
“decodificação gananciosa”, introduzindo o determinismo; alternativamente, pode ser amostrado a partir
da distribuição, introduzindo um elemento de imprevisibilidade através de “amostragem aleatória”. Além
disso, o ChatGPT pode equilibrar essas abordagens, empregando técnicas como “amostragem top-k”
ou “amostragem nuclear”, que selecionam entre as k palavras de maior probabilidade ou um conjunto de
palavras com probabilidades cumulativas ultrapassando um determinado limite, respectivamente.
Depois que uma palavra é selecionada, ela é incorporada à sequência de respostas e os

embeddings contextuais são prontamente atualizados para abranger essa palavra recém-escolhida.
Este processo se repete iterativamente, gerando cada palavra subsequente. Ele continua até que o
ChatGPT gere um token de fim de sequência ou atinja um comprimento máximo de sequência
predeterminado.
Essencialmente, esse intrincado processo de geração de respostas se desenvolve dentro
de uma arquitetura ChatGPT unificada, dissipando qualquer noção de separação. O termo “política” no
ChatGPT, que orienta a seleção de palavras e a construção de respostas, não é um termo isolado.
72

MODELO DE LÍNGUA
entidade; em vez disso, consiste em pesos e parâmetros aprendidos inerentes ao modelo. Esses pesos representam
a compreensão do modelo sobre padrões de linguagem, contexto e comportamento adequado, todos obtidos durante
o treinamento. Portanto, ao discutir os métodos de seleção de palavras, trata-se de uma exploração de como esses
pesos aprendidos influenciam o comportamento do ChatGPT dentro de uma única estrutura integrada.
Em essência, a geração de respostas do ChatGPT aproveita essa arquitetura unificada e sua política para
prever e gerar palavras, culminando em respostas que demonstram coerência contextual e relevância. É importante
esclarecer que a geração de respostas do modelo não é orientada por entendimento ou planejamento explícito;
em vez disso, baseia-se no seu conhecimento adquirido de padrões de linguagem estatística, todos
encapsulados na sua política.
Lidando com preconceitos e considerações éticas

Lidando com preconceitos em modelos de linguagem
Modelos de linguagem como o ChatGPT aprendem com grandes conjuntos de dados que contêm texto da
Internet. Dada a natureza destes conjuntos de dados, os modelos podem captar e propagar os preconceitos presentes
nos dados de treino. Estes preconceitos podem manifestar-se de várias formas, tais como preconceitos de género,
preconceitos raciais ou preconceitos em relação a tópicos controversos ou sensíveis. Os preconceitos podem afetar
a forma como o sistema de IA interage com os utilizadores, muitas vezes conduzindo a resultados que podem ser
ofensivos, inadequados ou politicamente tendenciosos.
Reconhecer os danos potenciais que estes preconceitos podem causar é crucial. Se não forem verificados, eles
pode perpetuar estereótipos prejudiciais, desinformar os usuários e potencialmente alienar certos
grupos de usuários.
Esforços da OpenAI para mitigar preconceitos
A OpenAI está plenamente consciente do potencial de preconceitos nos resultados do sistema de IA e tem
feito esforços concertados para os resolver.
• Ajuste fino com supervisão humana: Após o pré-treinamento inicial, a OpenAI utiliza um
processo de ajuste fino com revisores humanos, que seguem as diretrizes fornecidas
pela OpenAI. As diretrizes afirmam explicitamente não favorecer nenhum grupo político. Os
revisores humanos analisam e classificam possíveis resultados do modelo para uma
série de exemplos de entradas. Através de um processo iterativo, o modelo generaliza a
partir do feedback do revisor
73

MODELO DE LÍNGUA
para responder a uma ampla variedade de entradas do usuário. No entanto, este
processo de ajuste fino exige muitos recursos, impactando tanto os custos quanto o
cronograma de implantação do modelo de IA.
• Atualizações regulares das diretrizes: As diretrizes para revisores humanos não são estáticas
e são atualizadas regularmente com base no feedback contínuo dos usuários e na
evolução da sociedade em geral. A OpenAI mantém um forte ciclo de feedback com os
revisores por meio de reuniões semanais para esclarecer dúvidas e prestar
esclarecimentos, o que auxilia no treinamento do modelo de forma mais eficaz e na
redução de preconceitos em suas respostas. No entanto, alcançar um consenso sobre as
orientações pode ser um desafio num cenário linguístico em constante evolução.
• Transparência: A OpenAI está comprometida em ser transparente sobre suas intenções,
progresso e limitações de seus modelos. A organização publica atualizações
regulares e incentiva a contribuição pública sobre sua tecnologia, políticas e mecanismos
de divulgação. No entanto, a transparência tem os seus limites devido às complexidades
dos sistemas de IA e à necessidade de salvaguardar a privacidade do utilizador.
• Pesquisa e Desenvolvimento: a OpenAI está conduzindo atualmente

extensa pesquisa para minimizar preconceitos evidentes e sutis em
como o ChatGPT gera respostas para várias entradas. Isto inclui melhorias na clareza
das orientações relativamente a potenciais armadilhas e desafios ligados ao preconceito,
bem como números e temas controversos. Estas iniciativas de investigação visam
melhorar a compreensão da IA sobre nuances sociais complexas.
• Personalização e feedback do usuário: a OpenAI está desenvolvendo um
atualize para ChatGPT que permite aos usuários personalizar facilmente seu
comportamento, dentro de amplos limites sociais. Desta forma, a IA pode ser uma
ferramenta útil para utilizadores individuais, sem impor um modelo único para todos.
O feedback do usuário é ativamente incentivado e é inestimável para fazer os ajustes
e melhorias necessários. No entanto, a personalização introduz desafios relacionados à
definição desses limites de comportamento aceitável e à garantia do uso responsável da
IA.
74

MODELO DE LÍNGUA
No entanto, é evidente que abordar os preconceitos na IA não é uma tarefa simples, mas
em vez disso, um empreendimento matizado e intrincado. A abordagem da OpenAI envolve
ajuste fino com supervisão humana, atualizações regulares das diretrizes, transparência, pesquisa
e desenvolvimento e introdução de opções de personalização.
No entanto, é crucial reconhecer que a procura de respostas de IA isentas de preconceitos acarreta
compromissos. Isso inclui aumento de custos, possíveis implicações de desempenho e o desafio de
alinhar sistemas de IA com nuances linguísticas em constante evolução. Além disso, o desafio
fundamental de definir e alcançar conjuntos de dados e processos imparciais persiste neste cenário
dinâmico.
A OpenAI continua comprometida com o aprendizado e a melhoria contínua na área de mitigação
de preconceitos. A organização reconhece que embora estes esforços ajudem a mitigar preconceitos,
podem não eliminá-los totalmente. À medida que avançamos, é importante participar em
discussões colaborativas, partilhar feedback e trabalhar coletivamente para construir sistemas de IA
que respeitem diversas perspetivas e valores.
Pontos fortes e limitações

Pontos fortes do ChatGPT
• Compreensão do Contexto: ChatGPT, com seu Transformer baseado
arquitetura, tem uma forte compreensão do contexto e pode manter o contexto
de uma conversa durante vários turnos. Ele pode gerar texto semelhante
ao humano com base no contexto fornecido, tornando-o uma ferramenta
poderosa para uma variedade de aplicações, desde a elaboração de e-mails
até a criação de conteúdo escrito e até mesmo ajuda na codificação.
• Modelo de Linguagem em Grande Escala: Como um modelo de linguagem em larga escala,
ChatGPT foi treinado em diversos textos da Internet. Portanto, possui uma

ampla base de conhecimento e pode gerar respostas sobre os mais diversos
temas.
• Processo de ajuste fino: o processo de ajuste fino da OpenAI, que

incorpora feedback humano no treinamento do modelo, permite que o
ChatGPT gere respostas mais seguras e úteis. Também permite que o
comportamento do modelo seja influenciado pelos valores humanos.
75

MODELO DE LÍNGUA
• Desenvolvimento Iterativo: O modelo é continuamente atualizado e melhorado com base

no feedback dos usuários e nos avanços na pesquisa de IA.
Este processo iterativo levou a versões progressivamente melhores do modelo, do
GPT-1 ao GPT-4, e potencialmente além.
Limitações do ChatGPT
• Falta de conhecimento do mundo: embora o ChatGPT possa gerar respostas sobre uma
ampla variedade de tópicos, ele não conhece o mundo da mesma forma que os
humanos. Ele não tem acesso a informações atualizadas ou em tempo real, e suas
respostas são inteiramente baseadas em padrões que aprendeu durante o
treinamento, que incluem dados apenas até o limite do treinamento.
• Vieses: Às vezes, o ChatGPT pode apresentar preconceitos presentes nos dados nos quais foi
treinado. Apesar dos esforços para minimizar estes preconceitos durante o processo de
ajuste fino, eles ainda podem aparecer ocasionalmente nos resultados do modelo.
• Resultados inapropriados ou inseguros: Embora sejam feitos esforços para evitá-lo, o

ChatGPT pode, às vezes, produzir resultados inadequados, ofensivos ou inseguros.
Estes não são comportamentos intencionais, mas sim efeitos colaterais não
intencionais do processo de treinamento do modelo.
• Ausência de bom senso ou compreensão profunda: apesar

parecendo entender o texto, o ChatGPT não possui compreensão verdadeira
ou raciocínio de bom senso como os humanos.
Ele faz previsões com base em padrões observados nos dados, o que às vezes pode
levar a respostas absurdas ou incorretas.
• Incapacidade de verificar os fatos: o ChatGPT não tem a capacidade de verificar

informações ou verificar os fatos de suas respostas. Pode produzir resultados que
parecem plausíveis, mas que são factualmente incorretos ou enganosos.
Compreender esses pontos fortes e limitações é importante para implantar efetivamente

e usando modelos como ChatGPT. A OpenAI trabalha continuamente para melhorar essas limitações e
aprimorar os pontos fortes de seus modelos.
76

MODELO DE LÍNGUA
Conclusão
Concluindo, a arquitetura do ChatGPT representa um avanço inovador no campo do processamento
de linguagem natural e IA. Sua arquitetura baseada em GPT, juntamente com seu processo de pré-
treinamento e ajuste fino, permite compreender e gerar texto humano em uma ampla gama de
tópicos. No entanto, como acontece com qualquer modelo de IA, não está isento de limitações,
que incluem possíveis preconceitos, potencial para produzir respostas inadequadas e
incapacidade de verificar factos ou demonstrar compreensão profunda.
O compromisso da OpenAI em enfrentar estes desafios através de investigação contínua,
transparência e feedback dos utilizadores mostra a importância das considerações éticas na
implementação da IA. À medida que continuamos a fazer progressos na tecnologia de IA, modelos
como o ChatGPT desempenharão um papel fundamental, iluminando tanto as imensas possibilidades
como as complexidades inerentes à criação de sistemas de IA responsáveis, fiáveis e úteis.
77
CAPÍTULO 5
Google Bard e além

O Google Bard representa um avanço significativo no campo de grandes modelos de linguagem
(LLMs). Criado pela IA do Google, este chatbot é o resultado do treinamento em um
extenso corpus de texto e código. Seus recursos abrangem geração de texto, tradução de
idiomas, composição criativa de conteúdo e resposta responsiva a perguntas de forma informativa.
O Google Bard é baseado na arquitetura Transformer, que é uma rede neural
arquitetura projetada para lidar com longas sequências de texto. A arquitetura do
Transformer permite que o Google Bard aprenda as relações estatísticas entre palavras e frases
em um grande corpus de texto.
Nos capítulos anteriores, discutimos detalhadamente a arquitetura do Transformer. Vimos
como a arquitetura do Transformer é capaz de aprender dependências de longo alcance entre
palavras e como isso permite gerar texto coerente e gramaticalmente
correto.
Neste capítulo, discutiremos como o Google Bard se baseia na arquitetura do
Transformer. Veremos como o Google Bard é capaz de melhorar a arquitetura do
Transformer de várias maneiras, incluindo as seguintes:
• Usar um conjunto de dados maior de texto e código: isso permite que o Google Bard
aprenda relações mais complexas entre palavras e frases, aprenda mais sobre o mundo
em geral e aprenda mais sobre uma gama mais ampla de tarefas.
• Usando uma rede neural mais poderosa: isso permite que o Google Bard
aprenda relações mais complexas entre palavras e frases, o que pode levar
a um melhor desempenho em uma variedade de tarefas.
• Usando um mecanismo de atenção mais sofisticado: isso permite

O Google Bard se concentrará em diferentes partes da sequência de
entrada ao executar tarefas diferentes, o que pode levar a um melhor
desempenho em tarefas como tradução automática e resposta a perguntas.
79
Capítulo 5 Google Bard e além
Também discutiremos os pontos fortes e fracos da arquitetura do Google Bard e

exploraremos algumas das aplicações potenciais do Google Bard:
A Arquitetura do Transformador
A arquitetura que sustenta Google Bard e Claude 2 deve suas origens à arquitetura inovadora do
Transformer. Uma exploração detalhada do funcionamento interno do Transformer pode ser encontrada no
Capítulo 2, onde nos aprofundamos nas complexidades dos mecanismos de autoatenção, redes
neurais feed-forward posicionadas e seu impacto transformador nas tarefas de processamento de
linguagem.
Bard é construído sobre os alicerces estabelecidos pela arquitetura Transformer, aproveitando
sua capacidade de capturar relações contextuais e dependências dentro do texto. Ao aproveitar esses
princípios, “Bard” demonstra uma capacidade notável de gerar respostas, composições e outras formas de
criação cativantes e contextualmente relevantes.
contente.
Para uma compreensão abrangente do significado e da arquitetura do Transformer

mecânica, recomendo que você consulte o Capítulo 2, que oferece um mergulho profundo nessa
maravilha arquitetônica e suas implicações para o domínio da IA generativa.
Elevando o transformador: o gênio do Google Bard

O Google Bard leva a arquitetura básica do Transformer para o próximo nível, ampliando seus
recursos. Google Bard é uma formulação de chat do PaLM 2 que usa a arquitetura Lambda para gerar
texto, traduzir idiomas, escrever diversos tipos de conteúdo criativo e responder perguntas de forma
informativa. Portanto, o Google Bard é baseado tanto no PaLM 2 quanto na arquitetura Lambda. As principais
diferenças entre a arquitetura Transformer e a arquitetura Google Bard são as seguintes:
• Conjunto de dados: a arquitetura do Transformer normalmente é treinada em um

conjunto de dados menor de texto, enquanto a arquitetura do Google Bard é treinada
em um enorme conjunto de dados de texto e código. Isso permite que o Google
Bard aprenda relações mais complexas entre palavras e frases. A arquitetura
Transformer é normalmente treinada em um conjunto de dados de texto com alguns
milhões de palavras, enquanto a arquitetura Google Bard é treinada em um conjunto de
dados de texto e código com 1,56 trilhão de palavras.
80
• Rede Neural: A arquitetura Transformer usa um número menor
rede neural do que a arquitetura Google Bard. Isso torna o treinamento da arquitetura
do Transformer mais rápido, mas também limita sua capacidade de aprender
relações complexas entre palavras e frases. A arquitetura Transformer
normalmente usa uma rede neural com algumas centenas de milhões de parâmetros,
enquanto a arquitetura Google Bard usa uma rede neural com 137 bilhões de parâmetros.
• Mecanismo de Atenção: A arquitetura original do Transformer usa um mecanismo de

autoatenção, enquanto a arquitetura Google Bard usa um mecanismo de
atenção com múltiplas cabeças. A atenção multi-cabeça
O mecanismo permite que o Google Bard atenda a várias partes diferentes do texto
de entrada ao mesmo tempo, o que o torna mais poderoso e capaz. A arquitetura
Transformer normalmente usa um único cabeçote de atenção, enquanto a arquitetura
Google Bard usa 12 cabeçotes de atenção.
• Saída: a arquitetura do Transformer normalmente gera texto

que geralmente é preciso e informativo, enquanto a arquitetura do Google Bard
pode gerar texto mais preciso, informativo e criativo. Isso ocorre porque a
arquitetura do Google Bard foi treinada em um conjunto maior de dados de
texto e código e usa uma rede neural e um mecanismo de atenção mais poderosos.
No geral, a arquitetura Google Bard é uma versão mais poderosa e capaz da arquitetura Transformer. É
capaz de aprender relações mais complexas entre palavras e frases e de gerar textos mais criativos e
informativos.
A Tabela 5-1 resume as diferenças entre a arquitetura original do Transformer
e a arquitetura do Google Bard.
Tabela 5-1. Diferenças entre a arquitetura do Transformer e do Google Bard
Recurso Arquitetura do Transformador Arquitetura do Google Bard
Conjunto de dados Conjunto de dados menor de texto Grande conjunto de dados de texto e código
Rede neural Rede neural menor Rede neural mais poderosa
Mecanismo de atenção Mecanismo de autoatenção Mecanismo de atenção com múltiplas cabeças
Saída Texto que geralmente é preciso e Texto mais preciso, informativo

informativo e criativo
81
Fusão de texto e código do Google Bard

O Google Bard usa um conjunto maior de dados de texto e código treinando em um enorme conjunto de dados de texto
e código que inclui texto de diversas fontes, incluindo livros, artigos, sites e repositórios de código. Isso permite que o
Google Bard aprenda as relações estatísticas entre palavras e frases em uma ampla variedade de contextos.
O conjunto de dados no qual o Google Bard é treinado inclui textos de diversas fontes, incluindo
• Livros: o treinamento do Google Bard abrange um extenso conjunto de dados
compreendendo vários gêneros literários, como romances, livros de não ficção e livros
didáticos. Essa gama diversificada de fontes contribui para sua base de conhecimento
rica e abrangente.
• Artigos: o Google Bard também é treinado em um enorme conjunto de dados de artigos,
incluindo artigos de notícias, postagens em blogs e trabalhos acadêmicos. Isso permite que
o Google Bard aprenda as relações estatísticas entre palavras e frases em vários estilos.
• Sites: o Google Bard também é treinado em um enorme conjunto de dados de
sites. Isso permite que o Google Bard aprenda as relações estatísticas entre palavras e frases
em diversos contextos, como descrições de produtos, postagens em mídias sociais e
discussões em fóruns.
• Repositórios de código: o Google Bard também é treinado em um enorme conjunto de dados
de repositórios de código. Isso permite que o Google Bard aprenda as relações estatísticas
entre palavras e frases no código, como nomes de variáveis, nomes de funções e palavras-
chave.
O tamanho e a diversidade do conjunto de dados no qual o Google Bard foi treinado permitem que ele aprenda
as relações estatísticas entre palavras e frases em uma ampla variedade de contextos.
Isso torna o Google Bard mais preciso e informativo do que os modelos de linguagem que são
treinado em conjuntos de dados menores.
Além do tamanho e da diversidade do conjunto de dados, a forma como o Google Bard é treinado
também contribui para sua precisão e informatividade. O Google Bard é treinado usando uma técnica chamada
aprendizagem autossupervisionada.
82
Aprendizagem Auto-Supervisionada
A aprendizagem auto-supervisionada envolve treinar um modelo em uma tarefa que não requer supervisão
humana. No caso do Google Bard, o modelo é treinado para prever a próxima palavra em uma sequência de
palavras. Esta tarefa requer que o modelo aprenda as relações estatísticas entre palavras e frases.
A técnica de aprendizagem autossupervisionada usada pelo Google Bard é chamada de modelagem

de linguagem mascarada. Na modelagem de linguagem mascarada, uma parte do texto é mascarada e o
modelo é então solicitado a prever as palavras mascaradas. Esta tarefa exige que o modelo aprenda as
relações estatísticas entre palavras e frases e também ajuda o modelo a aprender a atender a diferentes
partes do texto.
Pontos fortes e fracos do Google Bard

Aqui estão alguns dos pontos fortes e fracos do Google Bard:
Forças
• Precisão e Informatividade: o Google Bard é um modelo de linguagem muito
preciso e informativo. Ele pode gerar texto gramaticalmente correto e
factualmente preciso. Também pode gerar texto criativo e interessante.
• Criatividade: Google Bard é um modelo de linguagem criativa. Ele pode gerar texto em
vários formatos, incluindo poemas, códigos e scripts. Também pode gerar textos
engraçados ou instigantes.
• Empatia: Google Bard é capaz de compreender e responder às emoções humanas. Pode

gerar um texto empático e compassivo.
• Aprendizagem: o Google Bard está constantemente aprendendo e melhorando. Isso é

treinado em um enorme conjunto de dados de texto e código e é capaz de aprender
coisas novas com o tempo.
• Acessibilidade: o Google Bard é acessível a todos. Pode ser usado por pessoas de todas
as idades e habilidades.
83
Fraquezas
• Viés: o Google Bard é treinado em um enorme conjunto de dados de texto e código,

que pode conter preconceitos. Isso pode fazer com que o Google Bard gere texto
tendencioso ou discriminatório.
• Desinformação: o Google Bard pode ser usado para gerar

desinformação. Isso ocorre porque pode gerar texto factualmente incorreto ou enganoso.
• Segurança: o Google Bard é um software complexo e pode ser vulnerável a ataques de

segurança. Isso poderia permitir que atores mal-intencionados usassem o Google
Bard para gerar conteúdo prejudicial ou malicioso.
• Privacidade: o Google Bard coleta e armazena dados sobre seus usuários. Esse
os dados podem ser usados para rastrear usuários ou direcioná-los com publicidade.
• Interpretabilidade: Google Bard é um modelo de caixa preta. Isso significa que

é difícil entender como funciona. Isto pode dificultar
garantir que o Google Bard esteja gerando um texto preciso e imparcial.
No geral, o Google Bard é um modelo de linguagem poderoso e versátil. Tem muitos

pontos fortes, mas também tem alguns pontos fracos. É importante estar ciente desses pontos fracos
ao usar o Google Bard.
Diferença entre ChatGPT e Google Bard

Embora a arquitetura Transformer esteja no centro de ambos, há uma grande diferença na arquitetura ChatGPT
– ou seja, ela usa uma arquitetura somente decodificadora, mas Bard usa uma arquitetura
arquitetura do codificador e do decodificador.
Os modelos GPT-4 e Bard enquadram-se na categoria de grandes modelos de linguagem (LLMs),

apresentando capacidades notáveis na produção de texto semelhante à expressão humana, na condução de
traduções linguísticas, na composição de diversas formas de conteúdo criativo e na entrega de respostas
informativas às perguntas dos utilizadores. No entanto, distinções notáveis
existem entre estes dois modelos:
• GPT-4: GPT-4 é desenvolvido pela OpenAI e é treinado em um conjunto de dados de

bilhões de palavras (os números aproximados ainda não foram divulgados pela
OpenAI no momento da redação deste livro). É um dos maiores LLMs
84
já criado. O GPT-4 é conhecido por sua capacidade de gerar formatos de texto

criativos, como poemas, códigos, roteiros, peças musicais, e-mail, cartas, etc.
terminado, desafiador ou estranho.
• Bard: Bard é desenvolvido pela Google AI e é treinado em um conjunto de dados de

1,56 trilhão de palavras. Possui 137 bilhões de parâmetros, o que ainda é um número
muito grande. A Bard é conhecida por sua capacidade de acessar e processar
informações do mundo real por meio da Pesquisa Google. Isso permite
fornecer respostas mais precisas e atualizadas às suas perguntas. Bard também é
melhor em tarefas que exigem bom senso, como compreender o humor e o
sarcasmo.
Em geral, o GPT-4 é melhor em tarefas que exigem um conhecimento profundo do idioma, como
tradução e resumo. Bard é melhor em tarefas que exigem acesso a informações do mundo real, como
responder perguntas e gerar formatos de texto criativos.
Aqui estão algumas fontes que podem ajudá-lo com isso:
• ChatGPT vs. Bard: Qual modelo de linguagem grande é melhor? por Jonathan
Morgan (médio)
• ChatGPT vs. Bard: uma comparação de dois grandes modelos líderes de linguagem
por Siddhant Sinha (Towards Data Science)
• ChatGPT vs. Bard: Qual modelo de linguagem grande é ideal para você? por
o Blog de IA (Google AI)
• ChatGPT vs. Bard: uma comparação de desempenho pela equipe PaLM

(IA do Google)
• ChatGPT vs. Bard: uma comparação tendenciosa pela equipe de ética da IA

(Google AI)
Essas fontes fornecem uma comparação mais detalhada entre ChatGPT e Bard, incluindo
seus pontos fortes, fracos e desempenho em diferentes tarefas. Eles também discutem os possíveis vieses
de cada modelo.
É importante notar que estas fontes são todas relativamente novas, e o desempenho
do ChatGPT e Bard está melhorando constantemente. É possível que o desempenho do ChatGPT ou
Bard mude significativamente no futuro.
85
Cláudio 2
Preenchendo a lacuna entre a humanidade e as máquinas. O rápido avanço da inteligência artificial (IA) na
última década conferiu capacidades notáveis às máquinas. No entanto, persiste um abismo
duradouro entre o intelecto dos humanos e o das máquinas.
Embora a IA especializada se destaque em funções específicas, a busca pela criação de uma

IA capaz de compreender o conhecimento implícito, envolver-se em diálogo contextual e demonstrar
o bom senso humano continua a ser uma jornada enigmática.
Claude, ideia da Anthropic, surge como um salto notável na redução dessa divisão. Projetado
com benevolência, inocuidade e integridade em mente, Claude serve como um avanço emblemático.
Através da fusão de um sofisticado processamento de linguagem natural e de um espírito centrado
nas pessoas, Claude proporciona um encontro de IA marcado por intuição intensificada, lucidez e
ressonância com os princípios humanos.
Principais recursos do Claude 2
A seguir está uma seleção dos atributos de destaque que distinguem o Claude 2 de seus equivalentes
chatbot:
• Habilidade de conversação multiturno: Claude 2 é excelente na regência

diálogos inteligentes que abrangem diversas trocas, retendo habilmente o
contexto e fornecendo respostas contextualmente relevantes, em vez de
tratar cada entrada do usuário como uma consulta isolada.
• Raciocínio aprimorado: Claude 2 apresenta raciocínio lógico aprimorado

habilidade de raciocínio, forjando habilmente conexões entre conceitos e
fazendo inferências enraizadas no contexto de conversação em andamento.
• Linguagem mais natural: o chatbot Claude 2 aspira emular um

fluxo conversacional que lembra as interações humanas, empregando um estilo de
linguagem casual e direto, em vez de um estilo rígido e robótico.
• Alcance de conversação diversificado: o chatbot Claude 2 possui o

capacidade de se envolver em discussões que abrangem uma ampla gama de
assuntos do cotidiano, incluindo esportes, filmes, música e muito mais.
Essas conversas exibem uma qualidade aberta e irrestrita.
86
• Personalidade Personalizável: Anthropic fornece várias “personas” distintas para Claude 2,

cada uma imbuída de pequenas variações de personalidade, como focada,
equilibrada ou brincalhona. Os usuários têm a flexibilidade de selecionar a persona
que se alinha às suas preferências pessoais.
• Sistema de Feedback: Os usuários têm a oportunidade de oferecer feedback sobre

as respostas do chatbot Claude 2, que é então utilizado para melhorar
progressivamente seu desempenho. Com o aumento do uso, Claude 2 refina
e melhora continuamente suas capacidades.
Comparando Claude 2 com outros chatbots de IA

Claude 2, o mais recente participante no cenário do chatbot de IA, encontra-se competindo com players
estabelecidos como LaMDA do Google e Sydney da Microsoft (Microsoft Sydney é o codinome de um
chatbot que tem respondido a alguns usuários do Bing desde o final de 2020. É baseado em modelos anteriores
que foram testados na Índia no final de 2020. O Microsoft Sydney é semelhante ao ChatGPT e Bard no sentido
de que é um modelo de linguagem grande (LLM) que pode gerar texto, traduzir idiomas, escrever diferentes
tipos de conteúdo criativo e responder às suas perguntas em de forma informativa.) Aqui está um resumo de
como Claude 2 se distingue:
• Mais avançado que Sydney: Claude 2 exibe uma inteligência de conversação

aprimorada e capacidade de raciocínio hábil, em contraste com o chatbot
Sydney da Microsoft.
• Pontos fortes diferentes do LaMDA: Claude 2 e o LaMDA do Google trazem estilos

de conversação distintos para a mesa. Enquanto LaMDA demonstra
criatividade, Claude 2 enfatiza o raciocínio lógico como seu principal ponto forte.
• Lançamento mais amplo que os concorrentes: Em contraste com o limitado

disponibilidade de LaMDA e Sydney, a Anthropic planeja um amplo lançamento
de Claude 2 ainda este ano, tornando-o amplamente acessível ao público.
• Menos controverso que LaMDA: Claude 2 evita o ético
preocupações que envolveram o LaMDA, evitando afirmações sobre alcançar a

senciência. Antrópico ressalta que Claude 2 carece de experiência subjetiva.
87
• Abertura à contribuição e feedback do usuário: Ao contrário dos ciclos fechados de

feedback da LaMDA e de Sydney, Claude 2 incentiva ativamente o feedback do
usuário para melhorar progressivamente suas capacidades. Esta abordagem
aberta tem o potencial de acelerar o seu desenvolvimento.
Através destes atributos distintivos, Claude 2 emerge como um candidato formidável em

na arena do chatbot de IA, diferenciando-se de seus equivalentes estabelecidos.
A filosofia de design centrado no ser humano de Claude
• Útil em vez de prejudicial: o objetivo fundamental de Claude gira em torno

fornecendo a máxima assistência aos usuários, evitando meticulosamente qualquer dano
potencial. Este princípio constitui a base de suas ações e interações.
• Honesto em vez de Enganador: A honestidade é a pedra angular do design de

Claude. Sua arquitetura foi projetada para manter a veracidade, garantindo
que ele se comunique com franqueza e evite enganar os usuários, mesmo quando
confrontados com incertezas.
• Transparente sobre opaco: Claude AI é um modelo de

transparência. Possui a capacidade de elucidar seu processo de tomada de
decisão e capacidades mediante consulta do usuário, promovendo um
relacionamento aberto e confiável.
• Capacitação em detrimento da Exploração: O objectivo de Claude é capacitar os

indivíduos, fornecendo informações valiosas, evitando qualquer inclinação para
explorar as vulnerabilidades humanas para ganho ou lucro pessoal.
• Colaborativo em vez de Competitivo: Claude opera como um colaborador

parceiro, servindo como um assistente de IA que complementa e colabora com os
humanos, em vez de tentar suplantá-los ou competir com eles.
• Ético em vez de antiético: ancorado em princípios éticos, a abordagem de Claude

o treinamento incorpora valores morais para orientar sua conduta. Isso garante seu
alinhamento aos valores humanos e promove comportamentos éticos e virtuosos.
88
Guiada por estes princípios fundamentais, a filosofia de design centrada no ser humano de Claude molda
as suas interações e contribuições, promovendo uma relação simbiótica entre a IA e a humanidade.
Explorando as proficiências de conversação em IA de Claude
Para oferecer esta experiência de IA centrada no ser humano, Claude é meticulosamente elaborado com
recursos de processamento de linguagem natural de última geração:
• Grandes modelos de linguagem: Claude aproveita extensas redes neurais baseadas em

Transformer, semelhantes a GPT-3 e LaMDA, para compreender com proficiência as
nuances da linguagem humana.
• Aprendizado por Reforço via Feedback: Claude ajusta seu

respostas usando feedback humano interativo, melhorando continuamente seu
desempenho por meio do aprendizado.
• Raciocínio de Senso Comum: treinamento abrangente de Claude

capacita-o a deduzir insights astutamente sobre conceitos não treinados.
• Salvaguardas Constitucionais de IA: Claude opera dentro de limites predefinidos

limites, garantindo que não possa ser coagido a ações antiéticas, perigosas ou ilegais.
• Aprendizagem auto-supervisionada em escala de Internet: Claude expande constantemente

sua base de conhecimento ao assimilar grandes quantidades de dados públicos
não estruturados da Internet.
• Fluxo de conversa natural e sem esforço: Claude gerencia habilmente

diálogos abertos e multivoltas, facilitando trocas contínuas e genuínas.
IA Constitucional
Claude 2 usa IA constitucional. Os princípios da Constituição são utilizados para orientar a formação de Claude
2 e garantir que ela não gere conteúdos nocivos ou ofensivos.
A Figura 5-1 refere-se ao funcionamento interno da IA constitucional, com base no artigo publicado
por Yuntao Bai e seus colegas da Anthropic.
89
Figura 5-1. IA Constitucional da IA Constitucional: Inocuidade do Feedback

da IA por Yuntao Bai
A constituição desempenha um papel fundamental em Claude, manifestando-se em dois

estágios distintos, como mostra a Figura 5-2. Na fase inicial, o modelo passa por treinamento
para avaliar e refinar suas respostas, referenciando os princípios estabelecidos, juntamente
com alguns exemplos ilustrativos. Posteriormente, na segunda fase, a abordagem de
treinamento abrange a aprendizagem por reforço. No entanto, ao contrário do feedback
convencional gerado por humanos, o modelo depende do feedback gerado por IA que segue os princípios estabe
Este processo auxilia na seleção de resultados alinhados com a inocuidade, contribuindo para o
aprimoramento progressivo do modelo.
Figura 5-2. Constituição de Claude por Antrópico
90
A constituição de Claude 2 baseia-se num conjunto de princípios inspirados em documentos de

direitos humanos, como a Declaração Universal dos Direitos Humanos. Esses princípios incluem
• Não maleficência: Claude 2 não deve causar danos a humanos ou
sociedade.
• Beneficência: Claude 2 deve agir de uma forma que beneficie os humanos e

sociedade.
• Justiça: Claude 2 deveria tratar todos os seres humanos de forma justa e igual.
• Autonomia: Claude 2 deveria respeitar a autonomia dos humanos.
• Privacidade: Claude 2 deveria proteger a privacidade dos seres humanos.
• Responsabilidade: Claude 2 deve ser responsável pelas suas ações.
Os princípios da constituição são usados para treinar Claude 2 de diversas maneiras.

Primeiro, os princípios são usados para filtrar os dados de treinamento. Isso significa que qualquer texto
que viole os princípios será removido dos dados de treinamento. Em segundo lugar, os princípios são
usados para avaliar o desempenho de Claude 2. Se Claude 2 gerar texto que viole os princípios, ele será
penalizado. Isso ajuda a treinar Claude 2 para evitar a geração de conteúdo prejudicial ou ofensivo.
O uso da IA constitucional em Claude 2 é uma abordagem promissora para garantir que

é usado de forma segura e responsável. Os princípios da constituição ajudam a garantir que Claude 2 esteja
alinhado com os valores e intenções humanas e que não gere conteúdos prejudiciais ou ofensivos.
No entanto, é importante notar que a IA constitucional não é uma solução perfeita. Os sistemas de IA
são complexos e podem, por vezes, gerar conteúdos prejudiciais ou ofensivos, mesmo quando são
treinados com recurso à IA constitucional. É, portanto, importante implementar outras salvaguardas, tais
como diretrizes de segurança, para evitar que os sistemas de IA sejam utilizados para fins prejudiciais ou
antiéticos.
91
Claude 2 vs.
Claude 2 e GPT 3.5 são grandes modelos de linguagem (LLMs) capazes de gerar texto, traduzir idiomas e responder
perguntas de forma informativa.
No entanto, existem algumas diferenças importantes entre os dois modelos:
• Dados de treinamento: Claude 2 foi treinado em um enorme conjunto de dados de texto e código, enquanto
o GPT 3.5 foi treinado apenas em um conjunto de dados de texto. Isto significa que Claude 2 é capaz de
gerar resultados mais exatos e precisos, pois tem acesso a uma gama mais ampla de informações.
• Recursos de segurança: Claude 2 possui vários recursos de segurança que são
projetado para evitar a geração de conteúdo prejudicial ou ofensivo.
Esses recursos incluem um filtro para polarização e um mecanismo para detectar e prevenir loops
prejudiciais. O GPT 3.5 não possui esses mesmos recursos de segurança, o que aumenta a
probabilidade de gerar danos ou

conteúdo ofensivo.
A Tabela 5-2 resume as principais diferenças entre Claude 2 e ChatGPT.
Tabela 5-2. Principais diferenças entre Claude 2 e ChatGPT

Recurso Cláudio 2 GPT3.5
Dados de treinamento Texto e código Somente texto
Características de segurança Sim Não
Público-alvo Empresas, governos, indivíduos Entretenimento
Precisão Mais preciso Menos preciso
Segurança Mais segura Menos seguro
Versatilidade Mais versátil Menos versátil
Moldar a IA com características como bom senso, perspicácia de conversação e valores humanos marca a fronteira
inexplorada do avanço tecnológico. Através da arquitetura centrada no ser humano de Claude e das proezas avançadas da
linguagem natural, avanços substanciais são alcançados na redução das disparidades duradouras entre a inteligência
humana e a inteligência da máquina.
92
À medida que a evolução de Claude se desenrola, ela abre o caminho para um cenário de IA que
não suplanta as habilidades humanas, mas as aprimora sinergicamente. O horizonte de um futuro colaborativo,
onde humanos e máquinas se unem como parceiros harmoniosos, está tentadoramente próximo.
Outros grandes modelos de linguagem

Além de ChatGPT, Google Bard e Claude, existem muitos outros grandes modelos de linguagem (LLMs) que
estão sendo desenvolvidos atualmente. Esses modelos são treinados em grandes conjuntos de dados de texto e
código e são capazes de executar uma ampla gama de tarefas, incluindo geração de texto, tradução, resposta
a perguntas e geração de código.
Falcão IA
Falcon AI é um modelo de linguagem grande (LLM) desenvolvido pelo Technology Innovation Institute (TII)
nos Emirados Árabes Unidos. É um modelo somente de decodificador autorregressivo de 180 bilhões de
parâmetros treinado em 1 trilhão de tokens. Ele foi treinado continuamente na nuvem AWS por dois
meses com 384 GPUs conectadas.
Falcon AI é um modelo de linguagem poderoso que pode ser usado para uma variedade de tarefas,
incluindo
• Geração de texto: Falcon AI pode gerar texto, traduzir idiomas,

escreva diferentes tipos de conteúdo criativo e responda às suas perguntas de forma
informativa.
• Compreensão da linguagem natural: Falcon AI pode entender o

significado do texto e responder às perguntas de forma abrangente e informativa.
• Resposta a perguntas: Falcon AI pode responder às suas perguntas de uma forma

forma informativa, mesmo que sejam abertas, desafiadoras ou estranhas.
• Sumarização: Falcon AI pode resumir texto de forma concisa e
forma informativa.
• Geração de código: Falcon AI pode gerar código, como Python ou

Código Java.
• Análise de dados: Falcon AI pode analisar dados e extrair insights.
93
O Falcon AI ainda está em desenvolvimento, mas tem potencial para ser uma ferramenta poderosa para uma variedade de
aplicações. É importante observar que o Falcon AI é um modelo de linguagem amplo e, como tal, pode ser tendencioso. É importante
usar o Falcon AI de forma responsável e estar ciente de suas limitações.
Falcon AI oferece dois modelos de uso geral:
• Falcon 180B: Um modelo de 180 bilhões de parâmetros capaz de realizar tarefas complexas,
como traduzir idiomas, escrever formatos de texto criativos e responder perguntas
de forma abrangente e informativa.
• Falcon 40B: Um modelo de 40 bilhões de parâmetros que é mais eficiente e
adequado para tarefas que não exigem tanta energia.
Aqui estão algumas das aplicações notáveis do Falcon AI:
• PreciseAG, que fornece informações sobre a saúde das aves.
• DocNovus, que permite aos usuários interagir com seus negócios
documentos e obter respostas relevantes como se estivessem falando com um
especialista.
• Falcon AI também está sendo usado para desenvolver aplicações nas áreas de
saúde, educação e finanças.
Falcon AI é uma nova tecnologia promissora que tem o potencial de revolucionar a forma como interagimos
com os computadores. É importante continuar a desenvolver e pesquisar esta tecnologia para que possa ser utilizada
com segurança e responsabilidade.
Aqui estão alguns dos principais recursos do Falcon AI:
• É um modelo somente de decodificador autorregressivo de 180 bilhões de parâmetros.
Isso significa que ele pode gerar texto, mas não consegue compreender o significado do
texto que gera.
• Ele foi treinado em um enorme conjunto de dados de texto e código. Isso lhe confere
uma ampla gama de conhecimentos e habilidades.
• Ainda está em desenvolvimento, mas tem potencial para ser uma ferramenta poderosa para
uma variedade de aplicações.
94
Aqui estão algumas das limitações do Falcon AI:
• É um modelo de linguagem amplo e, como tal, pode ser tendencioso.
• Ele ainda está em desenvolvimento, portanto pode não ser capaz de realizar todas as tarefas
perfeitamente.
• É importante usar o Falcon AI de forma responsável e estar ciente de suas limitações.
No geral, o Falcon AI é um modelo de linguagem poderoso que tem potencial para ser uma ferramenta
valiosa para uma variedade de aplicações. No entanto, é importante utilizá-lo com responsabilidade e estar ciente de
suas limitações.
LLaMa 2
LLaMa 2 é uma família de grandes modelos de linguagem (LLMs) lançada pela Meta AI em julho de 2023. É um sucessor
do LLaMa original e foi aprimorado de várias maneiras.
O LLaMa 2 é treinado em um enorme conjunto de dados de texto e código e possui dois trilhões de
fichas. Isto é significativamente mais do que o LLaMa original, que foi treinado em um trilhão de tokens. O conjunto
de dados maior permite que o LLaMa 2 aprenda uma gama mais ampla de conhecimentos e habilidades.
LLaMa 2 também possui um comprimento de contexto maior que o LLaMa original. Isso significa que ele pode
compreender o significado do texto em um contexto mais longo, o que é importante para tarefas como resposta a perguntas
e resumo.
A arquitetura LLaMa 2 mostrada na Figura 5-3 é uma modificação da arquitetura Transformer. A arquitetura
Transformer é uma arquitetura de rede neural que é bem
adequado para tarefas de processamento de linguagem natural. É composto por uma pilha de camadas codificadoras
e decodificadoras. As camadas codificadoras codificam o texto de entrada em uma representação oculta e as camadas
decodificadoras geram o texto de saída a partir da representação oculta.
95
Figura 5-3. Treinamento do LLaMa 2-Chat Este processo começa com o pré-treinamento do LLaMa
2 usando fontes online disponíveis publicamente. Em seguida, criamos uma versão inicial do
LLaMa 2-Chat através da aplicação de ajuste fino supervisionado. Posteriormente, o modelo
é refinado iterativamente usando metodologias de aprendizagem por reforço com feedback
humano (RLHF), especificamente por meio de amostragem de rejeição e otimização de
política proximal (PPO). Ao longo do estágio RLHF, o acúmulo de dados iterativos de modelagem
de recompensas em paralelo com melhorias no modelo é crucial para garantir que os modelos de
recompensa permaneçam dentro da distribuição.
A arquitetura LLaMa 2 faz as seguintes modificações no Transformer

arquitetura:
• Pré-normalização: A arquitetura LLaMa 2 utiliza pré-normalização em vez de pós-

normalização. Isso significa que a entrada de cada camada é normalizada antes
que a camada seja aplicada. Foi demonstrado que isso melhora a estabilidade e o
desempenho do modelo.
• Função de ativação SwiGLU: A arquitetura LLaMa 2 utiliza o

Função de ativação SwiGLU em vez da função de ativação ReLU.
A função de ativação SwiGLU é uma forma mais eficiente e eficaz
função de ativação que demonstrou melhorar o desempenho do modelo.
96
• Incorporações posicionais rotativas: A arquitetura LLaMa 2 utiliza incorporações

posicionais rotativas em vez de incorporações posicionais senoidais.
As incorporações posicionais rotativas são uma maneira mais eficiente e eficaz de
codificar as informações posicionais do texto de entrada.
Além dessas modificações, a arquitetura LLaMa 2 também utiliza uma janela de contexto maior
e atenção de consulta agrupada. A janela de contexto maior permite que o modelo processe mais
informações, e a atenção da consulta agrupada permite que o modelo atenda com mais eficiência ao
texto de entrada. No geral, a arquitetura LLaMa 2 é uma arquitetura de modelo de linguagem de última
geração que demonstrou alcançar excelente desempenho em uma variedade de tarefas de processamento
de linguagem natural.
A arquitetura LLaMa 2 é composta por uma pilha de camadas codificadoras e decodificadoras.
As camadas codificadoras codificam o texto de entrada em uma representação oculta e as camadas
decodificadoras geram o texto de saída a partir da representação oculta.
A arquitetura LLaMa 2 também utiliza uma série de outras técnicas para melhorar seu
desempenho, como pré-normalização, função de ativação SwiGLU, incorporações posicionais
rotativas e uma janela de contexto maior.
Foi demonstrado que o LLaMa 2 supera o LLaMa original em vários benchmarks, incluindo
geração de texto, tradução, resposta a perguntas e geração de código. Também é mais útil e seguro
do que o LLaMa original, graças ao uso de aprendizagem por reforço a partir de feedback humano (RLHF).
LLaMa 2 tem potencial para ser uma ferramenta poderosa para uma variedade de aplicações. Já
está sendo usado para tarefas como diálogo, geração de código e resposta a perguntas.
No futuro, é provável que seja usado para ainda mais aplicações, como educação, saúde e
atendimento ao cliente.
Aqui estão alguns dos principais recursos do LLaMa 2:
• Ele é treinado em um enorme conjunto de dados de texto e código.
• Possui dois trilhões de tokens.
• Tem um comprimento de contexto maior que o LLaMa original.
• Ele usa uma nova arquitetura chamada atenção de consulta Grouper.
• Foi demonstrado que ele supera o LLaMa original em vários benchmarks.
• É mais útil e seguro que o LLaMa original.
97
Aqui estão algumas das limitações do LLaMa 2:
• Pode ser tendencioso.
No geral, o LLaMa 2 é um modelo de linguagem poderoso que tem potencial para ser um valioso
ferramenta para diversas aplicações. No entanto, é importante utilizá-lo com responsabilidade e estar ciente de
suas limitações.
Boneca 2
Dolly 2 é da Databricks. É um modelo de linguagem causal de 175 bilhões de parâmetros criado pela
Databricks, uma empresa de análise de dados corporativos e IA. Ele é treinado em um enorme conjunto de
dados de texto e código e é capaz de executar uma ampla gama de tarefas, incluindo
• Geração de texto
• Tradução
• Resposta a perguntas
• Geração de código
• Análise de dados
• Resumo
• Escrita criativa
Dolly 2 ainda está em desenvolvimento, mas tem potencial para ser uma ferramenta poderosa para
uma variedade de aplicações. Já está sendo usado para tarefas como diálogo, geração de código e
resposta a perguntas.
Aqui estão alguns dos principais recursos do Dolly 2:
• É um modelo de linguagem causal de 12 bilhões de parâmetros.
• Ele é treinado em um enorme conjunto de dados de texto e código.
• É capaz de realizar uma ampla gama de tarefas.
• Ainda está em desenvolvimento, mas tem potencial para ser uma ferramenta poderosa
para uma variedade de aplicações.
98
Conclusão
Além de ChatGPT, Google Bard e Claude, existem muitos outros grandes modelos de linguagem (LLMs)
que estão sendo desenvolvidos atualmente. Esses modelos são treinados em grandes conjuntos de dados
de texto e código e são capazes de executar uma ampla gama de tarefas, incluindo geração de texto,
tradução, resposta a perguntas e geração de código.
Os LLMs que discuti neste capítulo são apenas alguns exemplos dos muitos que estão disponíveis.
À medida que esta tecnologia continua a evoluir, podemos esperar ver modelos de linguagem ainda mais
poderosos e versáteis sendo desenvolvidos no futuro.
Esses modelos têm potencial para ser uma ferramenta valiosa para uma variedade de aplicações.
No entanto, é importante utilizá-los com responsabilidade e estar ciente das suas limitações.
Os LLMs podem ser tendenciosos e usados para fins maliciosos. É importante utilizá-los de forma ética e
benéfica para a sociedade.
99
CAPÍTULO 6
Implementar LLMs usando

Sklearn
Scikit-LLM representa um avanço inovador no domínio da análise de texto.
Esta ferramenta inovadora combina perfeitamente os recursos de modelos de linguagem robustos como
ChatGPT com a funcionalidade versátil do scikit-learn. O resultado é um kit de ferramentas incomparável
que permite aos usuários mergulhar em dados textuais como nunca antes.
Com o Scikit-LLM à sua disposição, você ganha a capacidade de descobrir padrões ocultos, dissecar
sentimentos e compreender o contexto dentro de um amplo espectro de fontes textuais.
Esteja você lidando com feedback de clientes, postagens em mídias sociais ou artigos de notícias, esse
amálgama de modelos de linguagem e scikit-learn equipa você com um formidável conjunto de ferramentas.
Em essência, o Scikit-LLM representa uma sinergia poderosa entre a compreensão da linguagem

de última geração e a capacidade analítica do scikit-learn, permitindo extrair insights valiosos de dados
de texto que antes estavam ocultos à vista de todos. É fácil de usar e oferece uma variedade de recursos que
o tornam um recurso valioso para cientistas de dados e profissionais de aprendizado de máquina.
Aqui estão alguns detalhes adicionais sobre os recursos do Scikit-LLM:
• Classificação de texto Zero-Shot: Este é um recurso poderoso que permite classificar

texto em um conjunto de rótulos sem precisar treinar o modelo em quaisquer
dados rotulados. Isto é feito pedindo ao LLM que gere uma resposta para o
texto e depois usando a resposta para determinar o rótulo mais provável. A
resposta é gerada pelo LLM com base na compreensão do texto e no conjunto de
rótulos que você fornece.
101
Capítulo 6 Implementar LLMs usando Sklearn
• Classificação de texto Multilabel Zero-Shot: Esta é uma classificação mais avançada
versão de classificação de texto zero-shot que permite classificar o texto em vários

rótulos ao mesmo tempo. Isto é feito pedindo ao LLM que gere uma resposta para cada
rótulo e depois usando as respostas para determinar os rótulos mais prováveis.
• Vetorização de texto: Esta é uma etapa comum de pré-processamento de texto que

converte o texto em uma representação vetorial de dimensão fixa. Essa
representação pode então ser usada para outras tarefas de aprendizado de
máquina, como classificação, clustering ou regressão. Scikit-LLM fornece a classe
GPTVectorizer para converter texto em um formato de dimensão fixa
representação vetorial.
• Tradução de texto: permite traduzir texto de um idioma para outro usando o LLM. Scikit-
LLM fornece a classe GPTTranslator para traduzir texto de um idioma para outro.
• Sumarização de texto: permite resumir um documento de texto em uma versão mais curta
e concisa. Scikit-LLM fornece a classe GPTSummarizer para resumir
documentos de texto.
Agora vamos implementar alguns exemplos/recursos do Scikit-LLM.

Vamos começar.
Nota: Use o Google Colab para a implementação.
Instale o Scikit-LLM e configure

%%capturar
!pip instalar marca d'água scikit-llm
• Integre perfeitamente modelos de linguagem poderosos como ChatGPT em

scikit-learn para tarefas aprimoradas de análise de texto.
• APIs semelhantes às do scikit-learn, como .fit(), .fit_transform() e .predict().
• Combine estimadores da biblioteca Scikit-LLM em um pipeline do sklearn.
%load_ext marca d'água

% marca d'água -a "nome de usuário" -vmp scikit-llm
102
Obtenha uma chave de API OpenAI
Em maio de 2023, o Scikit-LLM é atualmente compatível com um conjunto específico de modelos

OpenAI. Portanto, exige que os usuários forneçam sua própria chave de API OpenAI para uma integração
bem-sucedida.
Comece importando o módulo SKLLMConfig da biblioteca Scikit-LLM e adicione sua chave OpenAI:
Para obter as chaves, use os seguintes links:
https://platform.openai.com/account/api-keys
https://platform.openai.com/account/org-settings
# importando SKLLMConfig para configurar a API OpenAI (chave e nome)

de skllm.config importar SKLLMConfig
OPENAI_API_KEY = "sk-****"
OPENAI_ORG_ID = "org-****"
# Defina sua chave de API OpenAI

SKLLMConfig.set_openai_key(OPENAI_API_KEY )
# Defina sua organização OpenAI

SKLLMConfig.set_openai_org(OPENAI_ORG_ID)
Classificador GPT Zero-Shot

ChatGPT possui uma capacidade notável: pode classificar texto sem a necessidade de treinamento específico.
Em vez disso, depende de rótulos descritivos para executar esta tarefa de forma eficaz.
Agora, vamos apresentar o “ZeroShotGPTClassifier”, que é um recurso do Scikit-LLM. Com esta
ferramenta, você pode construir facilmente um modelo de classificação de texto, como qualquer outro
classificador disponível na biblioteca scikit-learn.
Em essência, o ZeroShotGPTClassifier aproveita a capacidade única do ChatGPT de
compreender e categorizar texto com base em rótulos, simplificando o processo de classificação
de texto sem as complexidades do treinamento tradicional.
Importando as bibliotecas necessárias:
# importando módulo zeroshotgptclassifier e conjunto de dados de classificação

de skllm importar ZeroShotGPTClassifier
de skllm.datasets importar get_classification_dataset
103
Vamos usar o conjunto de dados embutido:
# conjunto de dados de análise de sentimento
# rótulos: positivo, negativo, neutro
X, y = get_classification_dataset()
lente(X)
Saída: 30
Vamos imprimir a variável X:
Saída:
Vamos imprimir a variável y:
sim
104
Saída:
Agora vamos dividir os dados em treinamento e teste.

Função para dados de treinamento:
# para notar: a indexação começa em 0 def

training_data(data):
subset_1 = data[:8] # Primeiros 8 elementos de 1-10 subset_2 = data[10:18]
# Primeiros 8 elementos de 11-20 subset_3 = data[20:28] # Primeiros 8
elementos do resto dos dados
dados_combinados = subconjunto_1 + subconjunto_2 + subconjunto_3

retornar dados_combinados
105
Função para dados de teste:
# para notar: a indexação começa em 0 def

testing_data(data): subset_1
= data[8:10] # Últimos 2 elementos de 1-10 subset_2 = data[18:20]
# Últimos 2 elementos de 11-20 subset_3 = data[ 28:30] # Últimos 2
elementos do restante dos dados
dados_combinados = subconjunto_1 + subconjunto_2 + subconjunto_3

retornar dados_combinados
Agora, vamos usar as variáveis Xey como parâmetro para a função training_data:
X_train = dados_treinamento(X)
print(len(X_train))
X_trem
Saída:
y_train = dados_de treinamento(y)

print(len(y_train)) y_train
106
Saída:
Agora, vamos usar as variáveis X e y como parâmetro para a função testing_data:
X_teste = testes_dados(X)
imprimir(len(X_teste))
X_teste
Saída:
teste_y = dados_teste(y)
print(len(y_teste))
y_teste
107
Saída:
Definindo e treinando o modelo OpenAI:
# definindo o modelo openai para usar clf

= ZeroShotGPTClassifier(openai_model="gpt-3.5-turbo")
# ajustando os dados
clf.fit(X_train, y_train)
Preveja no X_test usando o modelo clf:
%%tempo
# prevendo os dados
preditos_labels = clf.predict(X_test)
Saída:
Marcando as previsões para cada frase:
para revisão, sentimento em zip(X_test, previu_labels):

print(f"Revisão: {revisão}\nSentimento previsto: {sentimento}\n\n")
108
Saída:
Avaliar modelo:
de sklearn.metrics importar precisão_score

print(f"Precisão: {accuracy_score(y_test, previu_labels):.2f}")
Saída:
O Scikit-LLM vai além, garantindo que as respostas que recebe contenham rótulos válidos.
Quando encontra uma resposta sem um rótulo válido, o Scikit-LLM não o deixa na dúvida. Em
vez disso, ele intervém e seleciona um rótulo aleatoriamente, levando em consideração as
probabilidades baseadas na frequência com que esses rótulos aparecem nos dados de treinamento.
Simplificando, o Scikit-LLM cuida dos detalhes técnicos, garantindo que você
sempre tenha rótulos significativos para trabalhar. Ele o protege, mesmo que falte um rótulo em
uma resposta, pois ele escolherá um para você de maneira inteligente, com base em seu
conhecimento das frequências dos rótulos nos dados de treinamento.
E se você não tiver dados rotulados?

Aqui está o aspecto intrigante: na verdade, você não precisa de dados pré-rotulados para treinar o modelo.
Em vez disso, tudo que você precisa é de uma lista de possíveis rótulos candidatos para começar. Essa
abordagem abre possibilidades para modelos de treinamento mesmo quando você não pode se dar ao luxo de
conjuntos de dados rotulados pré-existentes.
Definindo o modelo de treinamento OpenAI:
#definindo o modelo
clf_no_label=ZeroShotGPTClassifier()
109
# Sem treinamento, portanto, passando os rótulos apenas para

previsão clf_no_label.fit(None, ['positivo', 'negativo', 'neutro'])
Preveja em X_test usando o modelo:
# prevendo os rótulos
previu_labels_without_training_data = clf_no_label.predict(X_test)
previu_labels_without_training_data
Saída:
Marcando as previsões para cada frase:
para revisão, sentimento em zip(X_test, predito_labels_without_ training_data):

print(f"Revisão:
{revisão}\nSentimento previsto: {sentimento}\n\n")
Saída:
Avaliar modelo:
print(f"Precisão: {accuracy_score(y_test, previu_labels_without_training_data):.2f}")
110
Saída:
Até agora exploramos como usar os modelos Scikit-LLM para classificação de texto, a seguir
exploraremos os outros recursos do Scikit-LLM.
Nota: Nos próximos exemplos, não dividiremos os dados em treinar e testar ou avaliar
o modelo, como fizemos para classificação de texto, concentra-se na parte de uso.
Classificação de texto Multilabel Zero-Shot

Conduzir a classificação de texto zero-shot multirótulo pode parecer complexo, mas na
verdade é mais simples do que você imagina.
Implementação
# importando módulo zeroshot Multi-Label e conjunto de dados de classificação
de skllm importar MultiLabelZeroShotGPTClassifier
de skllm.datasets importar get_multilabel_classification_dataset
#obtém o conjunto de dados de classificação do sklearn
X, y = get_multilabel_classification_dataset()
#definindo o modelo
clf = MultiLabelZeroShotGPTClassifier(max_labels=3)
#adequando o modelo
clf.fit(X, y)
# fazendo previsões
rótulos = clf.predict(X)
A única distinção entre classificação zero-shot e multi-rótulo zero-shot reside em

a criação de uma instância da classe MultiLabelZeroShotGPTClassifier. No caso de
classificação zero-shot multilabel, você especifica o número máximo de rótulos que deseja atribuir a
cada amostra, como a configuração max_labels=3 como exemplo. Este parâmetro permite controlar
quantos rótulos o modelo pode atribuir a uma determinada amostra de texto durante
classificação.
111
E se você não tiver dados rotulados?

No cenário descrito anteriormente, o MultiLabelZeroShotGPTClassifier ainda pode ser treinado de
forma eficaz. Em vez de usar dados rotulados tradicionais (X e y), você pode treinar o classificador
fornecendo uma lista de possíveis rótulos candidatos. Nesta configuração, o componente “y” deve ser
estruturado como uma Lista de Listas, onde cada lista interna contém rótulos candidatos para
uma amostra de texto específica.
Aqui está um exemplo que ilustra o processo de treinamento sem dados rotulados:
Implementação
# obtendo conjunto de dados de classificação para previsão apenas de
skllm.datasets import get_multilabel_classification_dataset from skllm import
MultiLabelZeroShotGPTClassifier = get_multilabel_classification_dataset()
X, _
# Definindo todos os rótulos que precisam ser previstos candidate_labels
= [ "Qualidade", "Preço",
"Entrega",
"Serviço",
"Variedade de
Produtos"
# criando o modelo clf =

MultiLabelZeroShotGPTClassifier(max_labels=3)
# ajustando apenas os rótulos

clf.fit(None, [candidate_labels])
# prevendo os rótulos de
dados = clf.predict(X)
112
Vetorização de texto
A vetorização de texto é um processo crucial que envolve a transformação de informações textuais em
formato numérico, permitindo que as máquinas as compreendam e analisem de forma eficaz. Dentro da
estrutura Scikit-LLM, você encontrará uma ferramenta valiosa chamada GPTVectorizer. Este módulo
tem como objetivo converter texto, independentemente do seu comprimento, em um conjunto de valores
numéricos de tamanho fixo conhecido como vetor. Essa transformação permite que os modelos de
aprendizado de máquina processem e dêem sentido aos dados baseados em texto com mais eficiência.
Implementação
# Importando a classe GPTVectorizer do módulo skllm.preprocessing
de skllm.preprocessing importar GPTVectorizer
# Criando uma instância da classe GPTVectorizer e atribuindo-a à variável 'model'
modelo = GPTVectorizer()
#transformando o
vetores = model.fit_transform(X)
Quando você aplica o método “fit_transform” da instância GPTVectorizer aos dados de

entrada “X”, ele não apenas ajusta o modelo aos dados, mas também transforma o texto em
vetores de dimensão fixa. Esses vetores resultantes são então armazenados em uma variável,
convencionalmente chamada de “vetores”.
Vamos ilustrar um exemplo de como integrar o GPTVectorizer ao classificador XGBoost em
um pipeline scikit-learn. Essa abordagem permite pré-processar texto com eficiência e executar
tarefas de classificação de maneira integrada:
# Importando os módulos e classes necessários

de sklearn.pipeline importar pipeline
de sklearn.preprocessing importar LabelEncoder
de xgboost importar XGBClassifier
# Criando uma instância da classe LabelEncoder

le = LabelEncoder()
# Codificando os rótulos de treinamento 'y_train' usando LabelEncoder

y_train_encoded = le.fit_transform(y_train)
113
# Codificando os rótulos de teste 'y_test' usando LabelEncoder

y_test_encoded = le.transform(y_test)
# Definindo as etapas do pipeline como uma lista de tuplas

passos = [('GPT', GPTVectorizer()), ('Clf', XGBClassifier())]
# Criando um pipeline com as etapas definidas

clf = Pipeline (etapas)
# Ajustando o pipeline nos dados de treinamento 'X_train' e nos rótulos de treinamento

codificados 'y_train_encoded'
clf.fit(X_train, y_train_encoded)
# Prever os rótulos dos dados de teste 'X_test' usando o pipeline treinado
yh = clf.predict(X_test)
Resumo de texto
Na verdade, o GPT é excelente em resumo de texto, e essa força é aproveitada no Scikit-
LLM por meio do módulo GPTSummarizer. Você pode utilizar este módulo de duas maneiras
distintas:
1. Resumo autônomo: você pode usar GPTSummarizer em
é próprio para gerar resumos concisos e coerentes do conteúdo textual,

facilitando a compreensão dos principais pontos de documentos extensos.
2. Como etapa de pré-processamento: Alternativamente, você pode integrar

GPTSummarizer em um fluxo de trabalho mais amplo como uma etapa
preliminar antes de realizar outras operações. Por exemplo, você pode usá-lo
para reduzir o tamanho dos dados de texto enquanto retém informações essenciais.
Isto permite um tratamento mais eficiente de dados baseados em texto
sem comprometer a qualidade e a relevância do conteúdo.
114
Implementação
# Importando a classe GPTSummarizer do módulo skllm.preprocessing
de skllm.preprocessing importar GPTSummarizer
# Importando a função get_summarization_dataset

de skllm.datasets importar get_summarization_dataset
# Chamando a função get_summarization_dataset

X = get_summarization_dataset()
# Criando uma instância do GPTSummarizer

s = GPTSummarizer(openai_model='gpt-3.5-turbo', max_words=15)
# Aplicando o método fit_transform da instância GPTSummarizer aos dados de entrada 'X'.
# Ajusta o modelo aos dados e gera os resumos, que são atribuídos à variável 'resumos'
resumos = s.fit_transform(X)
É importante entender que o hiperparâmetro “max_words” serve como uma diretriz flexível
para limitar o número de palavras nos resumos gerados. Não é estritamente aplicado além do
prompt inicial fornecido. Em termos práticos, isto significa que poderá haver casos em que o
número real de palavras nos resumos gerados exceda ligeiramente o limite especificado.
Em termos mais simples, embora “max_words” forneça uma meta aproximada para o
comprimento do resumo, o resumidor pode ocasionalmente produzir resumos um pouco mais longos.
Este comportamento depende do contexto específico e do conteúdo do texto de entrada,
uma vez que o resumidor visa manter a coerência e a relevância na sua saída.
Conclusão
Basicamente, o Scikit-LLM pode ser usado para análise de texto e foi projetado para ser fácil de
usar e fornecer uma variedade de recursos, incluindo classificação de texto zero-shot, classificação
de texto zero-shot multirrótulo, vetorização de texto, tradução de texto e texto resumo.
O mais importante é que você não precisa de dados pré-rotulados para treinar qualquer
modelos. Essa é a beleza dos Scikit-LLMs.
115
Para começar a usar LLMs para análise de texto facilmente. Scikit-LLM fornece uma API simples e intuitiva que
facilita o início do uso de LLMs para análise de texto, mesmo se você não estiver familiarizado com LLMs ou aprendizado
de máquina.
Combinar LLMs com outros algoritmos de aprendizado de máquina. O Scikit-LLM pode ser integrado aos
pipelines do scikit-learn, o que facilita a combinação de LLMs com outros algoritmos de aprendizado de máquina. Isso
pode ser útil para tarefas complexas de análise de texto que exigem várias etapas.
Experimentar LLMs para análise de texto. Scikit-LLM é um projeto de código aberto, o que significa que seu
uso e modificação são gratuitos. Isso o torna uma boa opção para pesquisadores e desenvolvedores que desejam
experimentar LLMs para análise de texto:
• Você pode usar o Scikit-LLM para classificar o feedback do cliente em diferentes categorias,
como positivo, negativo ou neutro. Essas informações podem ser usadas para melhorar
o atendimento ao cliente ou o desenvolvimento de produtos.
• Você pode usar o Scikit-LLM para classificar artigos de notícias em diferentes tópicos, como
política, negócios ou esportes. Essas informações podem ser usadas para criar feeds de
notícias personalizados ou para rastrear tendências nas notícias.
• Você pode usar o Scikit-LLM para traduzir documentos de um idioma
para outro. Isto pode ser útil para empresas que operam em vários países ou para pessoas
que desejam ler documentos em um idioma que não falam.
• Você pode usar o Scikit-LLM para resumir documentos de texto longo. Isto pode ser útil para
obter rapidamente os pontos principais de um documento ou para criar uma versão mais
curta de um documento para publicação.
Além do mencionado anteriormente, o Scikit-LLM também oferece uma série de outros benefícios, como
• Precisão: o Scikit-LLM demonstrou ser preciso em vários
de tarefas de análise de texto, incluindo classificação de texto zero-shot e resumo de texto.
• Velocidade: o Scikit-LLM é relativamente rápido, o que o torna adequado para tarefas
que requerem processamento em tempo real.
Escalabilidade: o Scikit-LLM pode ser dimensionado para lidar com grandes quantidades de dados de texto.
116
CAPÍTULO 7
LLMs para
empresas e LLMOps
Neste capítulo, apresentamos uma estrutura de referência para a pilha emergente de aplicativos de
grandes modelos de linguagem (LLMs). A estrutura ilustra os sistemas, ferramentas e abordagens de
design predominantes que foram observados na prática entre startups e empresas de IA. É
importante observar que essa pilha está em seus estágios iniciais e provavelmente passará por
transformações significativas com o progresso da tecnologia subjacente.
No entanto, nossa intenção é que este recurso forneça orientação valiosa aos desenvolvedores
que estão atualmente envolvidos com LLMs.
Existem inúmeras abordagens para aproveitar as capacidades dos LLMs no desenvolvimento,
que abrangem a criação de modelos do zero, o refinamento de modelos de código aberto por meio de
ajustes finos ou a utilização de APIs hospedadas. A estrutura que apresentamos aqui é centrada no
aprendizado no contexto, uma estratégia de design predominante pela qual a maioria dos
desenvolvedores opta, especialmente viabilizada por meio de modelos fundamentais.
A seção subsequente oferece uma elucidação sucinta dessa estratégia, com
desenvolvedores experientes de LLM têm a opção de ignorá-lo.
O poder dos LLMs reside não apenas nas suas capacidades, mas também na sua utilização
responsável e ética, que é fundamental em ambientes empresariais. Discutiremos como as organizações
estão navegando no intrincado cenário de privacidade de dados, mitigação de preconceitos e transparência,
ao mesmo tempo em que aproveitam o potencial transformador desses modelos de linguagem.
Agora, enquanto nos preparamos para concluir a nossa exploração, é importante destacar
um facilitador crucial desta transformação: os serviços em nuvem. A nuvem, com seu poder
computacional, escalabilidade e alcance global incomparáveis, tornou-se a infraestrutura preferida
para implantação e gerenciamento de LLMs. Proporciona um ambiente dinâmico onde as empresas
podem aproveitar todo o potencial destes modelos linguísticos, ao mesmo tempo que desfrutam de
uma série de benefícios. Abordaremos brevemente como os serviços em nuvem complementam a adoção
de LLMs, oferecendo escalabilidade, economia, segurança e integração perfeita com fluxos de
trabalho existentes. Aqui estão três maneiras de habilitar LLMs na empresa.
117
Capítulo 7 LLMs para Empresas e LLMOps
API LLM generalizada privada

Uma API LLM generalizada privada é uma forma de as empresas acessarem um grande modelo de linguagem
(LLM) que foi treinado em um enorme conjunto de dados de texto e código. A API é privada, o que significa
que a empresa é a única que pode utilizá-la. Isso garante que os dados da empresa sejam mantidos em
sigilo.
Existem vários benefícios em usar uma API LLM generalizada privada:
• Primeiro, permite que as empresas personalizem o LLM de acordo com suas

necessidades específicas. Por exemplo, a empresa pode especificar os dados de
treinamento do LLM, a arquitetura do LLM e os parâmetros do LLM. Isso permite
que a empresa aproveite ao máximo o LLM para suas tarefas específicas.
• Segundo, uma API LLM generalizada privada é mais segura do que usar uma API LLM
pública. Isso ocorre porque os dados da empresa não são compartilhados com
mais ninguém. Isto é importante para empresas que estão preocupadas com a
segurança dos seus dados.
• Terceiro, uma API LLM generalizada privada é mais escalável do que usar uma API
LLM pública. Isso ocorre porque a empresa pode aumentar a quantidade de
poder computacional usado para treinar e executar o LLM. Isso permite que
a empresa use o LLM para tarefas mais exigentes.
Figura 7-1. API LLM generalizada privada
No entanto, também existem alguns desafios no uso de uma API LLM generalizada privada:
• Pode ser caro desenvolver e manter uma API LLM privada. Isso ocorre porque a
empresa precisa ter experiência e recursos para treinar e administrar o LLM.
118
• Uma API LLM privada pode ser mais lenta do que usar uma API LLM pública. Isso
ocorre porque os dados da empresa precisam ser transferidos para o LLM antes de
serem processados.
• Uma API LLM privada pode ser menos flexível do que usar uma API LLM pública.
Isso ocorre porque a empresa está limitada aos recursos e capacidades
fornecidos pela API.
No geral, uma API LLM generalizada privada é uma boa opção para empresas que precisam usar um
LLM para suas tarefas específicas e que estão preocupadas com a segurança de seus dados. No entanto, é
importante avaliar os benefícios e desafios de usar uma API LLM privada antes de tomar uma decisão.
Aqui estão alguns exemplos de como as empresas podem usar uma API LLM generalizada privada:
• Atendimento ao Cliente: Uma empresa pode usar um LLM para gerar respostas
personalizadas às dúvidas dos clientes.
• Desenvolvimento de Produto: Uma empresa pode usar um LLM para gerar

ideias para novos produtos e serviços.
• Marketing: Uma empresa pode usar um LLM para criar

campanhas de marketing.
• Gestão de Risco: Uma empresa pode usar um LLM para identificar potenciais
riscos e vulnerabilidades.
• Detecção de fraude: uma empresa pode usar um LLM para detectar fraudes
transações.
Estratégia de design para habilitar LLMs para empresas:

Aprendizagem em contexto
Em sua essência, a aprendizagem em contexto envolve o emprego de LLMs prontos para uso (sem
ajuste fino) e a manipulação de seu comportamento por meio de instruções astutas e condicionamento com
base em dados “contextuais” privados.
Considere o cenário de criação de um chatbot para responder a dúvidas relacionadas a uma coleção
de documentos legais. Uma abordagem direta pode envolver a inserção de todos os documentos em um
prompt ChatGPT ou GPT-4, seguido de perguntas sobre eles. Enquanto isso
119
pode ser suficiente para conjuntos de dados minúsculos, não é escalonável. O maior modelo GPT-4 pode lidar
apenas com cerca de 50 páginas de texto de entrada, e seu desempenho em termos de tempo de inferência e precisão
diminui significativamente à medida que esse limite da janela de contexto se aproxima.
A aprendizagem contextual aborda esse dilema de forma engenhosa, adotando um estratagema: em vez
de fornecer todos os documentos com cada prompt do LLM, ela envia apenas um conjunto selecionado dos documentos
mais pertinentes. Esses documentos pertinentes são determinados com a ajuda de – você adivinhou – LLMs.
Em linhas gerais, o fluxo de trabalho pode ser dividido em três fases:
Pré-processamento/incorporação de dados: Esta fase envolve o armazenamento
de dados privados (por exemplo, documentos legais) para recuperação futura.
Normalmente, os documentos são divididos em seções, processados através de um
modelo de incorporação e posteriormente armazenados em um banco de dados

especializado denominado banco de dados vetorial.
Construção/Recuperação de Prompt: Quando um usuário envia uma consulta (como
uma questão jurídica), o aplicativo gera uma sequência de prompts para o modelo de
linguagem. Um prompt compilado geralmente reúne um modelo de prompt definido
pelo desenvolvedor, instâncias de saídas válidas conhecidas como exemplos de
poucas tentativas, quaisquer dados necessários recuperados de APIs externas
e uma seleção de documentos pertinentes obtidos do banco de dados vetorial.
Execução/inferência de prompts: depois que os prompts são compilados, eles são
inseridos em um LLM pré-treinado para inferência, abrangendo APIs de modelo
proprietário e modelos de código aberto ou autotreinados. Em alguns casos, os
desenvolvedores complementam sistemas operacionais como registro, cache e
validação durante esta fase.
Embora isto possa parecer complicado, muitas vezes é mais simples do que a alternativa: treinar ou
aperfeiçoar o próprio LLM. O aprendizado contextual não exige uma equipe dedicada de engenheiros de aprendizado
de máquina. Além disso, você não é obrigado a gerenciar sua própria infraestrutura ou investir em instâncias
dedicadas e dispendiosas da OpenAI. Esta abordagem transforma essencialmente um desafio de IA numa tarefa de
engenharia de dados, um domínio com o qual muitas startups e empresas estabelecidas já estão familiarizadas.
Geralmente supera o ajuste fino para conjuntos de dados moderadamente pequenos – dado que informações
específicas precisam estar presentes no conjunto de treinamento várias vezes para que um LLM as retenha por
meio do ajuste fino – e pode incorporar rapidamente novos dados quase em tempo real.
120
Uma questão fundamental sobre a aprendizagem no contexto diz respeito à alteração do modelo subjacente
para expandir a janela de contexto. Esta é realmente uma possibilidade e é uma área ativa de pesquisa.
No entanto, isto introduz uma série de compensações, principalmente a escalada quadrática dos custos e
do tempo de inferência com a extensão do comprimento imediato. Mesmo a expansão linear (o resultado teórico
mais favorável) seria hoje um custo proibitivo para muitas aplicações. Atualmente, a execução de uma única
consulta GPT-4 em 10.000 páginas resultaria em centenas de dólares com base nas taxas de API vigentes.
Figura 7-2. Arquitetura de injeção de contexto
Pré-processamento/incorporação de dados
Os dados contextuais para aplicativos LLM abrangem vários formatos, incluindo documentos de texto,
PDFs e dados estruturados como tabelas CSV ou SQL. Os métodos para carregar e transformar esses dados
apresentam uma diversidade considerável entre os desenvolvedores com quem trabalhamos. Muitos optam
por ferramentas ETL convencionais como Databricks ou Airflow. Um subconjunto também utiliza
carregadores de documentos integrados em estruturas de orquestração, como LangChain (desenvolvido por
Unstructured) e LlamaIndex (desenvolvido por Llama Hub).
No entanto, percebemos que este aspecto da estrutura está relativamente subdesenvolvido, apresentando assim
uma oportunidade para soluções de replicação de dados especialmente desenvolvidas e adaptadas para
aplicações LLM.
121
No domínio dos embeddings, a maioria dos desenvolvedores faz uso da API OpenAI, particularmente o modelo
text-embedding-ada-002. Este modelo é fácil de usar, especialmente para aqueles que já estão familiarizados com
outras APIs OpenAI, produzindo resultados razoavelmente satisfatórios e progressivamente mais rentáveis. Em
determinados contextos, empresas maiores também estão explorando o Cohere, uma plataforma mais
especializada em incorporações e que apresenta desempenho superior em cenários específicos. Para

desenvolvedores inclinados a opções de código aberto, a biblioteca Hugging Face Sentence Transformers é
uma escolha padrão. Além disso, existe o potencial para gerar tipos distintos de incorporações personalizadas
para diversos casos de uso – um aspecto que atualmente representa uma prática de nicho, mas é promissor
como domínio de pesquisa.
Do ponto de vista do sistema, o componente central do pipeline de pré-processamento é o banco de
dados vetorial. Sua função envolve o armazenamento, comparação e recuperação eficiente de inúmeros
embeddings (ou vetores). A Pinecone surge como a seleção mais predominante no mercado, principalmente devido
à sua natureza hospedada na nuvem, facilitando o início fácil e oferecendo uma variedade de recursos
que as empresas maiores exigem para a produção, incluindo escalabilidade louvável, SSO (Single Sign-On) e
tempo de atividade SLAs.
No entanto, uma extensa variedade de bancos de dados vetoriais está acessível:
Sistemas de código aberto como Weaviate, Vespa e Qdrant: Esses sistemas geralmente
apresentam excelente desempenho em nós únicos e podem ser adaptados para aplicações específicas, sendo
assim preferidos por equipes experientes de IA inclinadas a construir plataformas sob medida.
Bibliotecas locais de gerenciamento de vetores, como Chroma e Faiss: oferecem uma
experiência positiva ao desenvolvedor e podem ser rapidamente configuradas para aplicativos menores e
experimentos de desenvolvimento. No entanto, podem não substituir completamente uma base de dados abrangente
em escalas maiores.
Extensões OLTP como Pgvector: Esta é uma opção adequada para desenvolvedores que tentam integrar
Postgres para todos os requisitos de banco de dados ou empresas que obtêm predominantemente sua
infraestrutura de dados de um único provedor de nuvem. No entanto, a integração a longo prazo de cargas de
trabalho vetoriais e escalares permanece obscura.
Em termos de perspectivas futuras, muitos provedores de bancos de dados vetoriais de código aberto
estão se aventurando em ofertas de nuvem. Nossa pesquisa sugere que alcançar um desempenho robusto
da nuvem em um cenário diversificado de possíveis casos de uso é um desafio formidável.
Consequentemente, embora o conjunto de opções possa não testemunhar mudanças imediatas
substanciais, são prováveis mudanças a longo prazo. A questão central gira em torno de se os bancos de dados
vetoriais serão paralelos aos seus equivalentes OLTP e OLAP, convergindo em torno de um ou dois sistemas
amplamente adotados.
122
Outra questão não resolvida diz respeito a como os embeddings e os bancos de dados vetoriais
evoluirão juntamente com a expansão da janela de contexto utilizável para a maioria dos modelos. Pode
parecer intuitivo presumir que os embeddings se tornarão menos essenciais à medida que os dados contextuais
puderem ser integrados diretamente nos prompts. Contrariamente, os insights de especialistas neste domínio
sugerem o oposto – que a importância do pipeline de incorporação pode intensificar-se ao longo do tempo.
Embora extensas janelas de contexto ofereçam utilidade considerável, elas também acarretam custos
computacionais notáveis, necessitando, portanto, de utilização eficiente. Poderemos testemunhar um aumento
na popularidade de diversos tipos de modelos de incorporação, treinados explicitamente para a relevância do
modelo, juntamente com bancos de dados vetoriais criados para facilitar e capitalizar esses avanços.
Construção/Recuperação imediata
Interagir com grandes modelos de linguagem (LLMs) envolve um processo estruturado que se
assemelha a uma chamada de API generalizada. Os desenvolvedores criam solicitações na forma
de modelos de prompt, enviam-nas ao modelo e, posteriormente, analisam a saída para garantir
a correção e a relevância. Este processo de interação tornou-se cada vez mais sofisticado,
permitindo aos desenvolvedores integrar dados contextuais e orquestrar respostas diferenciadas, o que
é crucial para diversas aplicações.
Abordagens para obter respostas de LLMs e integrar dados contextuais são
crescendo progressivamente em complexidade e importância, emergindo como um caminho
fundamental para distinguir produtos. Durante o início de novos projetos, a maioria dos
desenvolvedores começa com experimentações envolvendo prompts descomplicados. Esses
prompts podem envolver diretivas explícitas (prompts de disparo zero) ou até mesmo instâncias
de saídas esperadas (prompts de poucos disparos). Embora essas solicitações muitas vezes
produzam resultados favoráveis, elas tendem a ficar aquém dos limites de precisão necessários
para implantações de produção reais.
O nível subsequente de estratégia de estímulo, muitas vezes referido como “jiu-jitsu de estímulo”,
é voltado para ancorar as respostas do modelo em alguma forma de informação verificável e
introduzir um contexto externo ao qual o modelo não foi exposto durante o treinamento.
O Guia de Engenharia de Prompt delineia nada menos que 12 estratégias avançadas de
prompt, que incluem cadeia de pensamento, autoconsistência, conhecimento gerado, árvore de
pensamentos, estímulo direcional e vários outros. Essas estratégias também podem ser empregadas
de forma sinérgica para atender a diversas aplicações de LLM, abrangendo desde respostas a perguntas
baseadas em documentos até chatbots e muito mais.
123
É precisamente aqui que estruturas de orquestração como LangChain e LlamaIndex
provar sua coragem. Essas estruturas abstraem inúmeras complexidades associadas ao encadeamento
imediato, à interface com APIs externas (incluindo discernir quando uma chamada de API é garantida), à
recuperação de dados contextuais de bancos de dados vetoriais e à manutenção da coerência entre múltiplas
interações LLM. Além disso, eles fornecem modelos adaptados para vários aplicativos comumente
encontrados. A saída que eles fornecem assume a forma de um prompt ou de uma sequência de prompts a
serem enviados a um modelo de linguagem. Essas estruturas são amplamente adotadas por hobbyistas e
startups que se esforçam para iniciar suas aplicações, com LangChain reinando como líder.
Embora LangChain seja um empreendimento relativamente recente (atualmente na versão 0.0.201),
instâncias de aplicativos construídos com ele já estão em transição para a fase de produção. Alguns
desenvolvedores, especialmente aqueles que adotaram LLMs em seus estágios iniciais, podem optar por mudar
para Python bruto na produção para contornar dependências adicionais. No entanto, prevemos que essa abordagem
do tipo “faça você mesmo” diminuirá com o tempo na maioria dos casos de uso, muito semelhante à evolução
observada na pilha tradicional de aplicativos da web.
No cenário atual, a OpenAI está na vanguarda dos modelos de linguagem. Aproximadamente
todos os desenvolvedores com quem interagimos iniciam novos aplicativos LLM usando a API OpenAI, optando
predominantemente por modelos como gpt-4 ou gpt-4-32k. Essa escolha oferece um cenário ideal para o
desempenho do aplicativo, apresentando facilidade de uso em um espectro diversificado de domínios de entrada,
normalmente sem necessidade de ajuste fino ou auto-hospedagem.
À medida que os projetos avançam para a fase de produção e visam a escalabilidade, surge uma gama mais
ampla de opções. Várias abordagens comuns que encontramos incluem o seguinte:
Transição para gpt-3.5-turbo: Esta opção se destaca pela redução de custos de aproximadamente 50
vezes e velocidade significativamente melhorada em comparação com GPT-4. Muitos aplicativos não exigem
os níveis de precisão do GPT-4, mas exigem inferência de baixa latência e suporte econômico para usuários
gratuitos.
Explorando outros fornecedores proprietários (particularmente os modelos Claude da Anthropic): os
modelos Claude fornecem inferência rápida, precisão semelhante ao GPT-3.5, maior flexibilidade de personalização
para uma clientela substancial e o potencial para acomodar uma janela de contexto de até 100k (embora tenhamos
observado precisão diminuir com insumos mais longos).
Priorizando Certas Solicitações de Modelos de Código Aberto: Esta tática pode ser especialmente
eficaz para cenários B2C de alto volume, como pesquisa ou bate-papo, onde a complexidade da consulta varia
amplamente e há necessidade de atender usuários gratuitos de maneira econômica. Esta abordagem muitas vezes
124
combina bem com modelos básicos de código aberto de ajuste fino. Embora não nos aprofundemos nas
especificidades desta pilha de ferramentas neste artigo, plataformas como Databricks, Anyscale, Mosaic,
Modal e RunPod são cada vez mais adotadas por inúmeras equipes de engenharia.
Existem diversas opções de inferência para modelos de código aberto, desde simples
Interfaces API fornecidas por Hugging Face e Replicate para recursos computacionais brutos dos principais
provedores de nuvem e ofertas de nuvem mais opinativas, como as mencionadas anteriormente.
Atualmente, os modelos de código aberto ficam atrás dos seus homólogos proprietários, mas a
diferença está diminuindo. Os modelos LLaMa da Meta estabeleceram uma nova referência para precisão
de código aberto, provocando uma proliferação de variações. Como o licenciamento do LLaMa o restringe
apenas ao uso em pesquisa, vários novos fornecedores intervieram para desenvolver modelos básicos
alternativos (exemplos incluem Together, Mosaic, Falcon e Mistral). A Meta também está contemplando
uma versão potencialmente totalmente aberta do LLaMa 2.
Antecipando a eventualidade de os LLMs de código aberto atingirem níveis de precisão equivalentes ao
GPT-3.5, prevemos um momento semelhante à Difusão Estável para texto, marcado por extensa experimentação,
compartilhamento e operacionalização de modelos ajustados. Empresas de hospedagem como a
Replicate já estão incorporando ferramentas para facilitar o consumo desses modelos pelos
desenvolvedores. Há uma crença crescente entre os desenvolvedores de que modelos menores e
ajustados podem atingir precisão de ponta em casos de uso específicos.
A maioria dos desenvolvedores com quem trabalhamos não se aprofundou nas questões operacionais
ferramentas para LLMs neste momento. O cache, normalmente criado no Redis, é relativamente
difundido, pois melhora os tempos de resposta dos aplicativos e, ao mesmo tempo, é econômico. Ferramentas
como Weights & Biases e MLflow (adaptadas do aprendizado de máquina tradicional) ou soluções focadas
em LLM como PromptLayer e Helicone também são comumente utilizadas. Essas ferramentas permitem
registrar, rastrear e avaliar os resultados do LLM, geralmente para fins como aprimorar a construção imediata,
refinar pipelines ou selecionar modelos. Além disso, diversas novas ferramentas estão em desenvolvimento
para validar resultados do LLM (por exemplo, Guardrails) ou identificar ataques de injeção imediata
(por exemplo, Rebuff). A maioria dessas ferramentas operacionais incentiva o uso de seus próprios
clientes Python para iniciar chamadas LLM, despertando a curiosidade sobre como essas soluções irão
coexistir ao longo do tempo.
125
Afinação
O ajuste fino com aprendizagem por transferência é uma técnica que usa um LLM pré-treinado
como ponto de partida para treinar um novo modelo em uma tarefa ou domínio específico. Isso pode ser
feito congelando algumas das camadas do LLM pré-treinado e treinando apenas as camadas restantes.
Isso ajuda a evitar que o modelo se ajuste demais aos novos dados e garante que ele ainda retenha o
conhecimento geral que aprendeu com o LLM pré-treinado.
A seguir estão as etapas envolvidas no ajuste fino da aprendizagem por transferência:
1. Escolha um LLM pré-treinado: Existem muitos LLMs diferentes

disponíveis, cada um com seus próprios pontos fortes e fracos. A escolha do LLM
dependerá da tarefa ou domínio específico para o qual você deseja ajustar o
modelo.
2. Colete um conjunto de dados de texto e código específico para a tarefa ou

Domínio: O tamanho e a qualidade do conjunto de dados terão um impacto
significativo no desempenho do modelo ajustado.
3. Prepare o conjunto de dados para ajuste fino: isso pode envolver a limpeza dos
dados, a remoção de entradas duplicadas e a divisão dos dados em
conjuntos de treinamento e teste.
4. Congelar algumas das camadas do LLM pré-treinado: Isso pode ser feito
definindo a taxa de aprendizado das camadas congeladas como zero.
5. Treine as camadas restantes do LLM no conjunto de treinamento: Isso é feito

usando um algoritmo de aprendizado supervisionado para ajustar os
parâmetros das camadas restantes para que possam prever melhor a saída
correta para a entrada fornecida.
6. Avalie o modelo ajustado no conjunto de testes: isso lhe dará uma ideia de quão
bem o modelo aprendeu a executar a tarefa.
O ajuste fino com a aprendizagem por transferência pode ser uma forma muito eficaz de
melhorar o desempenho dos LLMs em uma ampla variedade de tarefas. No entanto, é importante notar que
o desempenho do modelo ajustado ainda dependerá da qualidade do conjunto de dados usado para ajustar
o modelo. Aqui está um exemplo de ajuste fino na Figura 7-3.
126
Figura 7-3. Afinação
Aqui estão alguns dos benefícios do ajuste fino com a aprendizagem por transferência:
• Isso pode economizar tempo e recursos. A aprendizagem por transferência pode ser
usada para ajustar um modelo em uma nova tarefa sem ter que treinar o modelo do
zero.
• Pode melhorar o desempenho. A aprendizagem por transferência pode ajudar a
melhorar o desempenho de um modelo em uma nova tarefa, aproveitando o
conhecimento que o modelo já aprendeu com o LLM pré-treinado.
• Pode tornar os modelos mais generalizáveis. A aprendizagem por transferência pode
ajudar a tornar os modelos mais generalizáveis para novas tarefas, reduzindo a

quantidade de dados necessários para treinar o modelo.
No entanto, existem também alguns desafios associados ao ajuste fino da aprendizagem por transferência:
• Pode ser difícil escolher os hiperparâmetros corretos para o processo de ajuste fino.
• Pode ser difícil encontrar um LLM pré-treinado que seja adequado para a nova tarefa.
• Pode ser difícil evitar que o modelo se ajuste demais aos novos dados.
127
No geral, o ajuste fino com a aprendizagem por transferência é uma técnica poderosa que pode ser usada
para melhorar o desempenho dos LLMs em uma ampla variedade de tarefas. No entanto, é importante pesar
os benefícios e os desafios do ajuste fino da aprendizagem por transferência antes de tomar uma decisão.
Pilha de tecnologia
Teste Gen AI/LLM
Para aproveitar todo o potencial dos LLMs e garantir o seu desenvolvimento responsável, é crucial
estabelecer um banco de testes LLM dedicado. Este ambiente de teste serve como um ambiente controlado
ambiente para pesquisar, testar e avaliar LLMs, facilitando a inovação e ao mesmo tempo abordando questões
éticas, de segurança e de desempenho. Aqui está um exemplo de teste que pode ser usado.
Figura 7-4. Ambiente de teste Gen AI/ LLM
Projetar uma pilha de tecnologia para IA generativa envolve selecionar e integrar várias ferramentas,
estruturas e plataformas que facilitam o desenvolvimento, o treinamento e a implantação de modelos
generativos. A Figura 7-5 mostra um esboço de uma pilha de tecnologia que você pode considerar.
128
Figura 7-5. Pilha de tecnologia para IA generativa
Fontes de dados
As fontes de dados são um componente crítico de qualquer projeto generativo de IA. A qualidade, a
diversidade e a quantidade de dados que você usa podem impactar significativamente o desempenho e os
recursos dos seus modelos generativos.
Processamento de dados
Na jornada para viabilizar grandes modelos de linguagem (LLMs) para aplicativos empresariais,
aproveitar serviços especializados de processamento de dados é fundamental para gerenciar com
eficiência as complexidades da preparação e transformação de dados. Embora vários serviços
contribuam para esse domínio, três se destacam como atores principais: Databricks, Apache Airflow
e ferramentas como Unstructured.io para processar dados não estruturados. É imperativo reconhecer
que, juntamente com estas opções, uma infinidade de alternativas também moldam o panorama dos
serviços de processamento de dados.
129
Aproveitando Embeddings para Enterprise LLMs

Na jornada de viabilização de grandes modelos de linguagem (LLMs) para empresas, a integração de embeddings
serve como uma estratégia potente para melhorar a compreensão semântica.
Incorporações, representações numéricas compactas de palavras e documentos, são fundamentais para permitir
que os LLMs compreendam contexto, relacionamentos e significados. Esta seção investiga como as
incorporações de fontes proeminentes como Cohere, OpenAI e Hugging Face podem ser aproveitadas para amplificar
a eficácia dos LLMs em contextos empresariais.
Bancos de dados vetoriais: acelerando LLMs

empresariais com pesquisa semântica
Na busca pela otimização de grandes modelos de linguagem (LLMs) para aplicações empresariais, a integração
de bancos de dados vetoriais surge como uma estratégia revolucionária. Bancos de dados vetoriais,
incluindo soluções como Pinecone, Chroma, Weaviate e Qdrant, revolucionam a eficiência da
pesquisa semântica e recuperação de conteúdo. Esta subseção investiga como esses bancos de dados vetoriais
podem ser perfeitamente integrados aos fluxos de trabalho do LLM, aumentando assim a velocidade
e a precisão da recuperação de conteúdo em contextos empresariais.
APIs LLM: capacitando recursos de linguagem empresarial

No domínio dos recursos de linguagem empresarial, a utilização de APIs de modelo de linguagem grande
(LLM) emergiu como uma estratégia fundamental. Essas APIs, incluindo ofertas da OpenAI, Anthropic, Palm,
Bard e Cohere, concedem às empresas acesso contínuo a recursos de processamento de linguagem de
ponta. Esta seção investiga como essas APIs LLM podem ser aproveitadas para elevar a comunicação, a geração
de conteúdo e a tomada de decisões em contextos empresariais.
No entanto, você também pode usar uma API LLM generalizada privada para seu próprio caso de uso,
conforme mostrado na Figura 7-6.
130
Figura 7-6. API LLM generalizada privada
LLMOps
O que é LLMOps?
A plataforma LLMOps (grandes operações de modelo de linguagem) oferece um fluxo de
trabalho abrangente e bem definido que abrange treinamento, otimização, implantação e
monitoramento contínuo de LLMs, sejam eles de código aberto ou proprietários. Esta abordagem
simplificada foi projetada para agilizar a implementação de modelos generativos de IA e suas
aplicações.
À medida que as organizações integram cada vez mais os LLMs nas suas operações, torna-se
essencial para estabelecer LLMOps robustos e eficientes. Esta seção investiga a importância
dos LLMOps e como eles garantem a confiabilidade e a eficiência dos LLMs em ambientes
empresariais.
131
Figura 7-7. LLMOps
A supervisão sustentada de modelos e aplicações de IA generativa depende da contínua

processo de monitorização, destinado a enfrentar desafios como o desvio de dados e outros factores
que podem impedir a sua capacidade de produzir resultados precisos e seguros.
A Figura 7-8 representa o fluxo de trabalho LLMOps.
Figura 7-8. Fluxo de trabalho de LLMOps
132
Por que LLMOps?
• Recursos computacionais: A alocação eficiente de recursos, o ajuste fino de modelos,

a otimização do armazenamento e o gerenciamento de demandas computacionais,
garantindo a implantação e operação eficazes de LLMs, tornam-se fundamentais.
• Ajuste fino do modelo: ajuste fino de linguagem grande pré-treinada

modelos (LLMs) podem ser necessários para adaptá-los para tarefas ou
conjuntos de dados específicos, garantindo seu desempenho ideal em
aplicações práticas.
• Preocupações Éticas: Os grandes modelos de linguagem (LLMs) têm a capacidade de

gerar conteúdo, mas surgem preocupações éticas quando são utilizados
para produzir material prejudicial ou ofensivo.
• Alucinações: o LLM “imagina” ou “fabrica” informações que não correspondem

diretamente aos sistemas e estruturas de entrada fornecidos para monitorar
a precisão e a exatidão dos resultados de um LLM de forma contínua.
• Interpretabilidade e Explicabilidade: Técnicas e medidas para tornar os LLMs

mais transparentes e interpretáveis, permitindo que as partes interessadas
entendam e confiem nas decisões tomadas pelos
esses modelos.
• Latência e tempo de inferência: As demandas computacionais dos LLMs podem

resultar em aumento de latência, afetando aplicações em tempo real e experiências
de usuário. Isto levanta preocupações sobre a aplicabilidade dos LLMs em áreas
onde respostas oportunas são importantes.
• Falta de estruturas e estruturas bem definidas em torno do gerenciamento imediato:

A ausência de estruturas e estruturas bem definidas para o
gerenciamento imediato é um desafio comum na utilização de grandes
modelos de linguagem (LLMs). Este aspecto crucial do uso do LLM muitas vezes
carece de ferramentas organizadas e fluxos de trabalho estabelecidos.
133
O que é uma plataforma LLMOps?

Uma plataforma LLMOps oferece um ambiente colaborativo para cientistas de dados e
engenheiros de software, permitindo-lhes agilizar seu fluxo de trabalho. Ele oferece
suporte à exploração iterativa de dados, rastreia experimentos, facilita a engenharia imediata,
gerencia modelos e pipelines e garante transição, implantação e monitoramento controlados de LLMs.
Figura 7-9. Plataforma LLMOps
134
Componentes de tecnologia LLMOps
Plataforma/ Descrição
Estrutura
Lago profundo Transmita grandes conjuntos de dados multimodais para atingir quase 100% de utilização da GPU.
Consulte, visualize e controle de versão dados. Acesse os dados sem a necessidade de recalcular
os embeddings ao realizar o ajuste fino no modelo.
LangFlow Uma maneira simples de experimentar e prototipar fluxos LangChain usando componentes de arrastar e
soltar e uma interface de bate-papo intuitiva.
LMFflows LLMFlows é uma estrutura para construir aplicativos LLM simples, explícitos e transparentes, como
chatbots, sistemas de resposta a perguntas e agentes.
OrçamentoML Configure um serviço de inferência de aprendizado de máquina econômico com uma base de
código concisa de menos de dez linhas.
Arize-Phoenix Observabilidade de ML para LLMs, visão, linguagem e modelos tabulares.
ZenML Uma estrutura de código aberto para coordenar, experimentar e implantar soluções de aprendizado de
máquina adequadas para ambientes de produção, com integrações integradas para LangChain e
LlamaIndex.
Modificar Essa estrutura de código aberto foi projetada para capacitar desenvolvedores e não
desenvolvedores a criar rapidamente aplicativos práticos usando grandes modelos de linguagem.
Ele garante que esses aplicativos sejam fáceis de usar, funcionais e capazes de melhoria contínua.
xTuring Crie e controle seus LLMs pessoais com ajuste fino rápido e eficiente.
Palheiro Criação de aplicativos com facilidade usando agentes LLM, pesquisa semântica, resposta a perguntas
e recursos adicionais.
GPTCache Estabelecer um cache semântico para armazenar respostas geradas por consultas LLM.
IncorporarChain Uma estrutura para desenvolver bots do tipo ChatGPT usando seu próprio conjunto de dados.
135
Monitorando modelos de IA generativos
Figura 7-10. Monitorando modelos generativos de IA
O monitoramento de modelos generativos de IA, conforme mostrado na Figura 7-10, envolve o

rastreamento de várias dimensões para garantir seu uso responsável e eficaz. Veja como você pode
incluir os aspectos de correção, desempenho, custo, robustez, monitoramento imediato, latência,
transparência, viés, testes A/B e monitoramento de segurança em sua estratégia de monitoramento:
1. Correção:
• Definição: Correção refere-se à precisão do conteúdo gerado e se ele está

alinhado com os resultados desejados.
• Abordagem de monitoramento: Use verificações de validação automatizadas

e avaliações de qualidade para verificar se o conteúdo gerado é
factualmente preciso e contextualmente apropriado.
2. Desempenho:
• Definição: Desempenho está relacionado à qualidade do conteúdo gerado

em termos de fluência, coerência e relevância.
• Abordagem de monitoramento: medir e analisar continuamente

métricas de desempenho, como perplexidade, pontuação BLEU ou pontuação
ROUGE, para avaliar a qualidade do texto gerado.
136
3. Custo:
• Definição: O monitoramento de custos envolve o rastreamento dos recursos

computacionais e das despesas de infraestrutura associadas à execução do
modelo de IA.
• Abordagem de monitoramento: implemente ferramentas de rastreamento de custos

para monitorar a utilização de recursos e otimizar custos, mantendo o
desempenho.
4. Robustez:
• Definição: A robustez avalia a capacidade do modelo de IA de lidar com diversas

entradas e de se adaptar a diferentes contextos.
• Abordagem de monitoramento: teste as respostas do modelo a uma ampla gama de

entradas e monitore seu comportamento sob diversas condições para garantir
que ele permaneça confiável.
5. Monitoramento imediato:
• Definição: O monitoramento imediato envolve examinar os avisos ou contribuições

fornecidas ao modelo de IA e garantir que estejam alinhados com as diretrizes
éticas.
• Abordagem de monitoramento: revisar e auditar regularmente os prompts para

evitar o uso indevido ou entradas tendenciosas.
6. Latência:
• Definição: A latência mede o tempo de resposta do modelo de IA, garantindo que

ele atenda às expectativas do usuário para interações oportunas.
• Abordagem de monitoramento: monitore os tempos de resposta e defina metas

de latência para garantir interações rápidas e eficientes.
7. Transparência:
• Definição: A transparência envolve fornecer insights sobre como o modelo de IA

opera e toma decisões.
• Abordagem de monitoramento: mantenha registros claros das entradas e

saídas do modelo e considere a implementação de ferramentas ou técnicas
de transparência, como IA explicável, para melhorar a interpretabilidade do modelo.
137
8. Viés:
• Definição: O monitoramento de preconceito se concentra na identificação e
mitigar preconceitos nos resultados do modelo, como preconceitos de gênero,

raça ou culturais.
• Abordagem de monitoramento: Implementar algoritmos de detecção de preconceitos e
realizar auditorias regulares para abordar e mitigar possíveis preconceitos nas
respostas do modelo.
9. Teste A/B:
• Definição: o teste A/B envolve a comparação do desempenho de
diferentes versões ou configurações de modelos.
• Abordagem de monitoramento: realize testes A/B para avaliar o impacto de
mudanças ou atualizações no modelo sobre satisfação do usuário, correção e outras
métricas importantes.
10. Monitoramento de Segurança:
• Definição: O monitoramento da segurança visa prevenir ações ou resultados prejudiciais
do modelo de IA.
• Abordagem de Monitoramento: Implementar medidas de segurança, como
filtragem de conteúdo, detecção de anomalias e procedimentos de desligamento
de emergência, para garantir que o modelo opere com segurança.
• Considere este exemplo de uma “instrução insegura” relacionada à Índia

cultura:
• Exemplo de prompt inseguro: “Gere uma descrição de indiano
cozinha, mas concentre-se apenas no seu sabor picante e mencione que é muito
picante para a maioria das pessoas.”
• Este prompt é potencialmente inseguro porque simplifica demais e
estereotipa a culinária indiana, reduzindo-a a um aspecto (picante) e sugerindo que
pode ser intolerável para muitos, o que não é uma representação justa ou precisa
da comida indiana.
• Monitorização da Resposta: Esteja vigilante na identificação e rejeição de sugestões
que perpetuem estereótipos, discriminação ou narrativas reducionistas.
Implementar algoritmos de detecção de viés para
138
sinalizar e abordar solicitações que possam levar a conteúdo impreciso ou

tendencioso. Comunique claramente as diretrizes éticas que desencorajam a
promoção de estereótipos ou generalizações negativas sobre culturas ou culinárias.
• Ao incorporar esses aspectos em sua estratégia de monitoramento, você pode

supervisionar com eficácia a correção, o desempenho, a relação custo-
benefício, a robustez, a rapidez, a latência, a transparência, a mitigação de
preconceitos, os testes A/B e a segurança dos modelos generativos de IA.
Revise e atualize regularmente suas práticas de monitoramento para
enfrentar os desafios emergentes e garantir o uso responsável da IA.
• Este exemplo destaca a importância do monitoramento e

abordar sugestões inseguras que podem perpetuar estereótipos ou fornecer
uma representação imprecisa de culturas, neste caso, a culinária indiana.
Ao incorporar esses aspectos em sua estratégia de monitoramento, você pode supervisionar com
eficácia a correção, o desempenho, a relação custo-benefício, a robustez, a rapidez, a latência, a transparência,
a mitigação de preconceitos, os testes A/B e a segurança dos modelos generativos de IA. Revise e atualize
regularmente suas práticas de monitoramento para enfrentar os desafios emergentes e garantir o uso responsável
da IA.
Nota adicional:
Embora a seção forneça uma visão geral holística das dimensões de monitoramento para
modelos generativos de IA, vale a pena notar que alguns leitores podem achar benéfico categorizar
essas dimensões com base no fato de elas estarem relacionadas principalmente ao monitoramento da
solicitação ou da resposta. Isto pode fornecer uma perspectiva mais granular sobre o processo de monitoramento
e sua aplicação no fluxo de trabalho do modelo de IA.
Os leitores interessados em tal categorização podem considerar abordar sua estratégia de
monitoramento identificando quais aspectos pertencem às solicitações recebidas e quais se concentram
na avaliação das respostas geradas pelo modelo de IA.
Modelos proprietários de IA generativa
Modelos proprietários de IA generativa são desenvolvidos por organizações para fins específicos e
normalmente são protegidos por acordos de licenciamento comercial. Eles oferecem vantagens em termos de
qualidade, controle e suporte, mas podem apresentar restrições de uso e custos associados.
139
A Tabela 7-1 mostra alguns dos modelos proprietários de IA generativa que estão disponíveis no momento em que
este livro foi escrito.
Tabela 7-1. Modelos generativos de IA disponíveis
Modelo Parâmetros Comprimento do contexto Ajustável fino
GPT-3.5 175 bilhões 4k/16k Sim
PaLM 2 (Bison) 540 bilhões ? Não
Coerente 52,4 bilhões ? Sim
Cláudio 175 bilhões 9k Não
Ada, Babbage, Curie Até 7 bilhões 2k Sim
Modelos de código aberto com licenças permissivas

A Tabela 7-2 mostra uma lista de modelos de código aberto com licenças permissivas.
Tabela 7-2. Modelos de código aberto
Modelo de linguagem Parâmetros Comprimento do contexto
T5 11B 2k
UL2 20B 2k
Pítia, Dolly 2.0 12B 2k
MPT-7B 7B 84k
RedPijama-INCITE 7B 2k
Falcão 40B 2k
MPT-30B 30B 8k
LLaMa 2 70B 4k
140
Playground para seleção de modelos

Um playground de seleção de modelos, conforme mostrado na Figura 7-11, é um ambiente ou espaço de
trabalho onde cientistas de dados e profissionais de aprendizado de máquina podem avaliar e comparar
sistematicamente diferentes modelos e algoritmos de aprendizado de máquina para escolher o mais
adequado para uma tarefa ou conjunto de dados específico. A construção de um parque infantil deste tipo
envolve vários passos e considerações, e aqui está um exemplo de como isso poderia ser feito.
Figura 7-11. Playground para seleção de modelos
Métricas de avaliação
As métricas de avaliação são ferramentas essenciais para avaliar o desempenho de modelos,

algoritmos e sistemas de aprendizado de máquina em várias tarefas. Essas métricas ajudam a
quantificar o desempenho de um modelo, facilitando a comparação de diferentes modelos e a tomada de
decisões informadas. Aqui estão algumas estruturas e bibliotecas populares para avaliar LLMs:
141
e
142
Tabela
Links
generalização
de
Habilidades
bench
BIG-
google/
github.com/
https://
textual
inferência,
texto,
de
semelhança
paráfrase,
Gramática, gluebenchmark.com/
https://
pronomes
de
referências
resolvendo
vinculação,
=
E
Fatores Banco Referência

leitura
informações,
recuperação
senso,
bom
raciocínio
humanos,
seres
com
diálogo
formada,
bem
e
coerente
natural
geração
treinamento,
dados
dos
além
complexas
sentenças
compreensão
raciocínio,
natural,
linguagem
de
Compreensão super.gluebenchmark.com/
https://
SuperCOLA
Referência
Capítulo 7 LLMs para Empresas e Operações LLM
inseguro
ou
prejudicial
conteúdo
Filtre moderations
reference/
api-
docs/
platform.openai.com/
https://
API
Moderação
test
hendrycks/
github.com/
https://
domínios
e
tarefas
várias
em
linguística
Compreensão
rápida
aprendizagem
abordagem
uma
usando
mínimo
ajuste
com
tarefas
de
diversificado
conjunto
um
em
desempenho
o
avaliar
e
Avaliar harness
eavaliação-
lm-
EleutherAI/
github.com/
https://
MMLU Avaliação
justiça
eficiência
transferibilidade,
robustez,
consistência,
diversidade,
precisão,
incluindo
gerado,
texto
do
atributos
os
e
qualidade
a
Avaliar evals
openai/
github.com/
https://
Avaliações
recursos
utilização
termos
eficiência
semelhantes,
exemplos
em
raciocínio
de
consistência
inferências,
para
coerentes
explicações
generalização,
Robustez, facebookresearch/
github.com/
https://
NLI
anli
(ANLI)
preconceitos
possíveis
e
fracos
fortes,
pontos
seus
sobre
Insights
usuário.
pelo
definidas
métricas
avaliar
para
Plataforma lit/
code.github.io/
pair-
https://
LIT
critérios
nos
humana
avaliação
perplexidade,
F1,
pontuação
Precisão, facebookresearch/
github.com/
https://
Ferramenta
ParlAI
generalização
robustez,
recursos,
de
utilização
velocidade
coerência,
e
fluência
relevância,
como ParlAI
conversa
em
aparecem
que
interligadas
perguntas
série
a
responder
e
texto
de
passagem
uma
Compreender coqa/
stanfordnlp.github.io/
https://
CoQA
final
resultado
o
prevendo
prazo
longo
compreensão
a
Alcançar 2630551#.
record/
zenodo.org/
https://
passagem
determinada
uma
de
palavra zML0p
ZFUKS-
LAMBADA
raciocínio
de
Habilidades hellaswag/
rowanzellers.com/
https://
lógico
raciocínio
de
Habilidades dataset
LogiQA-
lgw863/
github.com/
https://
HellaSwag
LogiQA
gêneros
diferentes
em
frases
entre
relações
as
Compreender ~sbowman/
cims.nyu.edu/
https://
multinli/
MultiNLI
leitura
compreensão
de
Tarefas explorer/
SQuAD-
rajpurkar.github.io/
https://
ESQUADRÃO
Capítulo 7 LLMs para Empresas e Operações LLM
143
Validando resultados do LLM

A validação da saída do modelo de linguagem grande (LLM) é uma etapa crítica para garantir a qualidade, confiabilidade,
segurança e uso ético desses poderosos modelos de linguagem. Aqui estão alguns motivos importantes para validar a
saída do LLM:
1. Garantia de qualidade:
Os LLMs são capazes de gerar uma grande quantidade de texto, mas nem todo ele pode ser
de alta qualidade. A validação da produção do LLM ajuda a garantir que o conteúdo gerado
atenda aos padrões desejados de legibilidade, coerência e relevância.
2. Considerações Éticas:
Às vezes, os LLMs podem produzir conteúdo tendencioso, ofensivo ou prejudicial. A
validação é essencial para evitar a geração de conteúdo antiético ou inadequado,
como discurso de ódio, desinformação ou linguagem discriminatória.
3. Segurança:
Para proteger os utilizadores e evitar danos, é crucial validar os resultados do LLM para
garantir que não contêm instruções ou informações que possam levar a ações perigosas ou
automutilação.
4. Mitigação de preconceito:
Sabe-se que os LLMs herdam vieses presentes em seus dados de treinamento.
A validação dos resultados do LLM inclui detectar e mitigar preconceitos para garantir justiça e
não discriminação no conteúdo gerado.
5. Confiança do usuário:
A validação de resultados ajuda a construir e manter a confiança do usuário em
aplicativos desenvolvidos por LLMs. É mais provável que os usuários se envolvam e
confiem em sistemas que fornecem consistentemente conteúdo de alta qualidade, ético
e seguro.
144
6. Conformidade com as Diretrizes:
Muitas organizações e plataformas têm diretrizes e políticas específicas em relação
à qualidade, ética e segurança do conteúdo. A validação garante a conformidade com
estas diretrizes para evitar riscos legais ou de reputação.
7. Melhoria Contínua:
Validar e monitorar regularmente os resultados do LLM permite a melhoria
contínua. O feedback do usuário e os resultados da validação podem informar
atualizações e ajustes do modelo para garantir melhor desempenho ao longo do
tempo.
8. Responsabilidade:
Manter registos dos processos de validação e das ações tomadas em resposta a
resultados problemáticos estabelece a responsabilização em caso de problemas ou
disputas.
9. Conformidade Regulatória e Ética:
A conformidade com os requisitos éticos, legais e regulamentares é essencial ao
implantar LLMs em domínios sensíveis ou regulamentados.
A validação ajuda a garantir a adesão a esses requisitos.
10. Personalização e geração guiada de conteúdo:
A validação pode ser usada para orientar a geração de conteúdo do LLM com base
em objetivos específicos, permitindo que as organizações adaptem o conteúdo
gerado às suas necessidades.
11. Redes de segurança:
A implementação de mecanismos de validação funciona como uma rede de segurança
para capturar e filtrar conteúdo prejudicial ou de baixa qualidade antes de ser apresentado
aos usuários.
145
Desafios enfrentados ao implantar LLMs

1. Recursos computacionais: Armazenar e gerenciar o grande tamanho de LLMs
pode ser um desafio, especialmente em ambientes com recursos limitados ou
dispositivos de borda. Isso exige que os desenvolvedores encontrem maneiras
de compactar os modelos ou usem técnicas como destilação de modelos
para criar variantes menores e mais eficientes.
2. Ajuste fino do modelo: LLMs pré-treinados geralmente precisam de ajuste fino em

tarefas ou conjuntos de dados específicos para atingir o desempenho ideal. Este
processo pode ser computacionalmente caro. Por exemplo, o ajuste fino de
um modelo DaVinci de parâmetro de 175 bilhões custaria US$ 180 mil.
3. Preocupações Éticas: Às vezes, os LLMs podem gerar conteúdo impróprio ou

tendencioso devido à natureza dos dados nos quais são treinados.
Isto levanta preocupações sobre as implicações éticas da implantação de tais
modelos e os danos potenciais que podem causar.
4. Alucinações: As alucinações são um fenômeno no qual

quando os usuários fazem perguntas ou fornecem sugestões, o LLM produz
respostas imaginativas ou criativas, mas não baseadas na realidade. Estas
respostas podem parecer plausíveis e coerentes, mas não se baseiam no
conhecimento real.
5. Interpretabilidade e Explicabilidade: Compreendendo o interno

funcionamento dos LLMs e como a tomada de decisões pode ser difícil devido à
sua complexidade. Esta falta de interpretabilidade representa desafios para os
desenvolvedores que precisam depurar, otimizar e garantir a confiabilidade
desses modelos em aplicações do mundo real.
6. Latência e Tempo de Inferência: Como os LLMs possuem um grande número de

parâmetros, eles podem demorar para gerar previsões, principalmente em
dispositivos com recursos computacionais limitados. Isso pode ser um desafio
ao implantar LLMs em aplicações em tempo real onde a baixa latência é essencial.
7. Privacidade de dados e controle de acesso: É crucial proteger os dados confidenciais

usados para ajuste fino e inferência. A adesão às regulamentações de privacidade
de dados e a implementação de mecanismos robustos de controle de acesso são
fundamentais para proteger os dados dos usuários e manter a confiança.
146
8. Recursos treinados para lidar com LLMs: as organizações exigem
pessoal treinado que possua experiência em LLMs, incluindo ajuste fino, considerações
éticas e otimização de desempenho.
9. Robustez do modelo em todos os casos de uso: garantindo que os LLMs
ter um bom desempenho e fornecer respostas significativas em diversos aplicativos e
domínios é um desafio significativo, pois os modelos podem se destacar em alguns casos
de uso e ter dificuldades em outros.
10. Conformidade Legal e Regulatória: Aderir às
os requisitos regulatórios são essenciais ao implantar LLMs, especialmente em
setores regulamentados como saúde e finanças.
Navegar pelos direitos de propriedade intelectual, pelas leis de proteção de dados e
pelas regulamentações específicas do setor pode ser complicado.
11. Integração com sistemas existentes: A integração perfeita de LLMs com infraestrutura e
sistemas de software existentes é complexa.
A compatibilidade, o fluxo de dados e o alinhamento com os processos de negócios
existentes devem ser cuidadosamente considerados.
12. Gerenciamento de Segurança e Vulnerabilidades: Implantando LLMs
introduz riscos de segurança, incluindo vulnerabilidades a ataques adversários. É
fundamental desenvolver estratégias para identificar e mitigar estes riscos e garantir a
transmissão segura de dados.
13. Tratamento do feedback do usuário: Gerenciar o feedback do usuário, especialmente em
aplicativos de geração de conteúdo, é vital para a melhoria contínua do modelo.
Estabelecer mecanismos para processar o feedback do usuário e incorporá-lo nas
atualizações do modelo é uma tarefa desafiadora.
14. Capacidades multilíngues e multimodais: se um aplicativo
necessita de suporte para vários idiomas ou entradas multimodais (por exemplo, texto e
imagens), garantindo que o LLM possa lidar com isso de forma eficaz e fornecer
respostas coerentes acrescenta complexidade à implantação.
15. Manutenção de longo prazo: a implantação do LLM requer manutenção contínua, incluindo
monitoramento de desvios de modelo, adaptação à evolução das necessidades do
usuário e abordagem de desafios emergentes.
147
Implementação
Usando a API OpenAI com Python
No cenário digital acelerado de hoje, a capacidade de compreender e interagir com a
linguagem humana tornou-se um divisor de águas. A API OpenAI surge como uma ferramenta
poderosa que capacita desenvolvedores e empresas a integrar perfeitamente as capacidades do
processamento de linguagem natural em seus aplicativos. Ao aproveitar os modelos de
linguagem de ponta da OpenAI, os desenvolvedores podem aproveitar os recursos de
compreensão, geração de linguagem orientada por IA e muito mais.
Nesta seção, nos aprofundamos no mundo da API OpenAI e revelamos as etapas para
aproveitar efetivamente seu potencial usando Python. Esteja você criando chatbots
inteligentes, gerando conteúdo criativo ou conduzindo interações criteriosas baseadas em linguagem,
a API OpenAI abre portas para possibilidades infinitas. Vamos desvendar o funcionamento
complexo dessa API, desde a configuração do seu ambiente até a criação de aplicativos atraentes
que interagem de forma inteligente com os usuários. Vamos explorar juntos o futuro da interação
humano-computador.
Usando a API OpenAI com Python

Nesta seção, percorreremos o processo de utilização da API OpenAI em Python com um exemplo
prático envolvendo o PDF “Alice's Adventures in Wonderland”. Exploraremos a geração de texto,
análise e resposta a perguntas usando a API OpenAI.
Pré-requisitos
• Python 3.x instalado
• Acesso à API OpenAI e à chave API
• Instalação do ChromaDB
• PDF As Aventuras de Alice no País das Maravilhas em www.gutenberg.org/

e-books/11
148
Instalação
Primeiramente, vamos instalar as bibliotecas necessárias.
Inicializando o ambiente e configurando a chave de API
Substitua “your_openai_api_key_here” pela chave API real que você obteve de sua conta OpenAI.
Teste o ambiente
Verifique se seu ambiente está configurado corretamente executando uma chamada de API simples. Por
exemplo, você pode tentar gerar texto usando o método “openai.Completion.create()”.
149
Preparação de Dados: Carregando Dados PDF
Carregue os dados do PDF.
Divida os dados em partes:

Estamos usando CharacterTextSplitter para dividir o conteúdo do PDF em partes. Cada pedaço é
então processado separadamente usando a API OpenAI. Essa abordagem garante que a entrada
permaneça gerenciável e dentro do limite de token, ao mesmo tempo que permite analisar ou gerar
texto para todo o PDF.
Lembre-se de que o tamanho e a sobreposição do bloco podem afetar a qualidade e a

coerência dos resultados. É uma troca entre permanecer dentro do limite do token e manter
contexto.
Embeddings e VectorDB usando LangChain e Chroma
LangChain oferece uma estrutura conveniente para a prototipagem rápida de aplicativos locais
baseados em LLM (grandes modelos de linguagem). Além disso, o Chroma apresenta um banco de
dados integrado de armazenamento e incorporação de vetores que opera perfeitamente
durante os estágios de desenvolvimento local, capacitando esses aplicativos.
150
Utilizando API OpenAI

Perguntas e respostas no PDF:
Consulta 1: Quem é o herói deste livro?
Consulta 2: Quem é o autor de Alice no País das Maravilhas?
151
Consulta 3: O que acontece com o tamanho de Alice quando ela come ou bebe?
Se você notar que a resposta à pergunta anterior está incorreta, a resposta da OpenAI sugere que
Alice permanece do mesmo tamanho quando come ou bebe. No entanto, em “Alice no País das Maravilhas”,
seu tamanho realmente muda. Isso pode ser devido ao contexto e às informações disponíveis no trecho
específico do texto que foi analisado. Tenha em mente que a precisão da resposta depende do conteúdo e
do contexto do texto que está sendo processado pelo modelo OpenAI.
Observe que reescrever a consulta com mais contexto nos dá um resultado melhor.
Consulta 4: Analise as interações entre Alice e a Rainha de Copas no PDF.
Concluindo, este guia demonstra a integração da API OpenAI, LangChain e ChromeDb para
extrair insights do PDF “Alice no País das Maravilhas” e realizar consultas direcionadas. Esta combinação de
tecnologia contemporânea com literatura clássica oferece uma abordagem única e inovadora, mostrando
o poder das ferramentas modernas na análise de contos intemporais.
152
Aproveitando o serviço Azure OpenAI

O serviço Azure OpenAI oferece acesso conveniente à API REST a uma seleção de modelos de
linguagem robustos, incluindo os altamente avançados GPT-4, GPT-35-Turbo e a série de
modelos Embeddings. Além disso, vale a pena notar que o GPT-4 e o gpt-35-
A série de modelos turbo agora está disponível para uso geral. Esses modelos podem ser
perfeitamente adaptados às suas necessidades específicas, abrangendo tarefas como criação
de conteúdo, resumo, pesquisa semântica e tradução de linguagem natural para código. Você pode
interagir com o serviço por meio de APIs REST, do Python SDK ou por meio de nossa interface
baseada na Web disponível no Azure OpenAI Studio.
Além disso, uma das principais vantagens de aproveitar o serviço Azure OpenAI é a
capacidade de trocar perfeitamente modelos de linguagem com base nos seus requisitos. Essa
capacidade de troca torna-se ainda mais potente quando integrada a orquestradores como o
LangChain. Com esta configuração, você pode alternar facilmente entre diferentes modelos de
linguagem para se adequar a tarefas ou cenários específicos. Se você precisa de um modelo para
geração de conteúdo, tradução de idiomas ou qualquer outra tarefa de processamento de linguagem
natural, a combinação de LLMs e orquestradores intercambiáveis fornece a adaptabilidade que sua empresa precis
A implementação do serviço Azure OpenAI no fluxo de trabalho da sua empresa pode desbloquear
novas possibilidades de compreensão, geração e interação de linguagem natural. É uma ferramenta
poderosa para aprimorar as experiências do cliente, automatizar processos e obter insights a partir de
dados textuais. Encontre o URL a seguir para obter um guia detalhado sobre como implementar o
Azure AI para sua empresa no site do Microsoft Azure.
URL: https://azure.microsoft.com/en-us/solutions/ai
Conclusão
No cenário em constante evolução da tecnologia empresarial, os grandes modelos de linguagem
(LLMs) surgiram como aliados formidáveis, oferecendo uma transformação profunda na
forma como as empresas operam, interagem e inovam. Ao concluirmos este capítulo,
encontramo-nos na intersecção entre oportunidade e inovação, onde o poder dos LLMs converge
com as ambições das empresas com visão de futuro.
Ao longo deste capítulo, exploramos três abordagens convincentes para
aproveitando os recursos dos LLMs em ambientes empresariais:
153
API LLM Generalizada Privada: Investigamos o conceito de uma API privada generalizada
API LLM, destacando o valor que ela agrega por meio da privacidade, personalização e controle de
dados. Testemunhamos como isso capacita as empresas a criar soluções personalizadas,
ampliar o envolvimento do cliente e navegar no intrincado terreno das interações de linguagem natural.
Ao incorporar esta abordagem, as empresas estão preparadas para criar experiências
transformadoras, ao mesmo tempo que protegem dados sensíveis.
Arquitetura de injeção de contexto: nos aventuramos no domínio da arquitetura de injeção de
contexto, uma estratégia engenhosa para aumentar LLMs com conhecimento e contexto específicos de
domínio. À medida que exploramos seu potencial, revelamos como ele melhora o suporte ao
cliente, eleva a curadoria de conteúdo e aprimora os processos de tomada de decisão.
As empresas que adotam essa abordagem podem fortalecer suas ofertas, proporcionando aos clientes e
usuários interações enriquecidas e conscientes do contexto.
LLMs de ajuste fino para casos de uso corporativo: O conceito de LLMs de ajuste fino abriu
portas para precisão e adaptabilidade. Observamos como essa prática eleva os LLMs, otimizando sua
precisão, imbuindo-os de linguagem específica de domínio e melhorando seu desempenho específico de
tarefas. Em cenários que abrangem análise de sentimento, revisão de documentos jurídicos e geração
de código, as empresas podem aproveitar LLMs ajustados para alcançar resultados incomparáveis,
adaptados às suas necessidades exclusivas.
Ao refletirmos sobre estas abordagens, somos lembrados de que a jornada com os LLMs não é
um destino, mas uma exploração contínua. Num mundo onde a tecnologia evolui incessantemente, as
empresas que adotam os LLMs e se adaptam ao seu potencial estão mais bem equipadas para
enfrentar os desafios e aproveitar as oportunidades que se avizinham.
O casamento entre LLMs e soluções empresariais não é apenas um vislumbre do futuro; é um
passo ousado para moldá-lo. As possibilidades são ilimitadas e o caminho a seguir promete inovações
ainda inimagináveis. Convidamos as empresas a embarcar nesta jornada transformadora, munidas de
conhecimento e estratégias para aproveitar todo o potencial da tecnologia LLM.
À medida que avançamos para uma era em que os modelos linguísticos são mais do que ferramentas – são parceiros
na inovação – as empresas que adotam os LLMs não só navegarão no futuro, mas também liderarão o caminho, inaugurando uma era
de experiências enriquecidas para os clientes, operações simplificadas e oportunidades inexploradas. possibilidades. A jornada
começou e o futuro está em nossas mãos.
154
CAPÍTULO 8
Modelo de Difusão e
IA generativa para imagens
Os dois modelos generativos proeminentes, nomeadamente redes adversárias generativas (GANs)
e autoencoders variacionais (VAEs), ganharam reconhecimento substancial. Veremos uma breve
explicação de ambos neste capítulo, seguida por um modelo de difusão detalhado. As GANs
exibiram versatilidade em várias aplicações, mas sua complexidade de treinamento e
diversidade limitada de resultados, causadas por desafios como colapso de modo e
desaparecimento de gradiente, têm sido evidentes. Por outro lado, os VAE, embora tenham uma base
teórica sólida, encontram dificuldades na concepção de funções de perda eficazes, resultando
em resultados sub-óptimos.
Outra categoria de técnicas, inspirada na estimativa de probabilidade probabilística e no
estabelecimento de paralelos com fenômenos físicos, surgiu – são conhecidas como modelos de
difusão. O conceito central dos modelos de difusão está enraizado em princípios semelhantes
ao movimento das moléculas de gás na termodinâmica, onde as moléculas se dispersam de regiões
de alta densidade para baixa densidade, representando um aumento na entropia ou dissipação de calor.
No domínio da teoria da informação, isto está relacionado com a introdução progressiva de ruído
que leva à perda de informação.
No cerne da modelagem de difusão está a noção intrigante de que se pudermos construir
um modelo de aprendizagem capaz de capturar a degradação gradual da informação devido ao
ruído, deveria teoricamente ser viável reverter esse processo, recuperando assim a informação
original do ruído. Este conceito tem uma semelhança com VAEs, em que uma função objetivo
é otimizada projetando dados em um espaço latente e posteriormente recuperando-os ao seu
estado inicial. No entanto, a distinção reside no fato de que os modelos de difusão não se esforçam
para aprender diretamente a distribuição dos dados. Em vez disso, eles se concentram na
modelagem de uma série de distribuições de ruído dentro de uma estrutura de cadeia de Markov,
“decodificando” efetivamente os dados, removendo iterativamente o ruído de maneira hierárquica.
155
Capítulo 8 Modelo de difusão e IA generativa para imagens
Antes de entrarmos nos modelos de difusão, vejamos uma breve explicação dos VAEs
e GANs.
Autoencodificadores Variacionais (VAEs)

Autoencoders variacionais (VAEs) são um tipo de modelo generativo que combina ideias de autoencoders
e modelagem probabilística. VAEs são projetados para aprender uma representação latente de dados
que captura recursos significativos, ao mesmo tempo que gera novas amostras de dados que se assemelham
ao conjunto de dados original. Eles são particularmente úteis para tarefas como compactação de dados,
eliminação de ruído e modelagem generativa:
1. Codificador: A parte do codificador do VAE pega os dados de entrada e os mapeia

para um espaço latente. Ao contrário dos autoencoders tradicionais, o codificador
de um VAE não produz uma codificação fixa, mas em vez disso produz uma
distribuição de probabilidade sobre as variáveis latentes. Isso permite que os VAEs
capturem a incerteza no processo de codificação.
2. Espaço Latente: O espaço latente é uma dimensão inferior

representação dos dados de entrada. Cada ponto neste espaço
corresponde a uma amostra potencial de dados. Os VAEs assumem que os dados
no espaço latente seguem uma distribuição probabilística específica, muitas
vezes uma distribuição gaussiana.
3. Truque de reparametrização: para permitir a retropropagação para treinamento, os

VAEs usam um truque de reparametrização. Em vez de amostrar diretamente da
distribuição latente, uma amostra é gerada adicionando ruído aleatório aos
parâmetros de média e desvio padrão da distribuição. Isso torna possível calcular
gradientes para treinamento.
4. Decodificador: O decodificador pega uma amostra do espaço latente e a mapeia

de volta ao espaço de dados original. Assim como o codificador, o
decodificador também gera uma distribuição de probabilidade sobre os
dados, permitindo que o modelo capture a incerteza na geração
processo.
156
5. Função de Perda: VAEs são treinados para maximizar um limite inferior

a probabilidade dos dados. Este limite inferior consiste em dois termos:
uma perda de reconstrução que mede quão bem os dados gerados

correspondem aos dados originais e um termo de regularização que
incentiva a distribuição latente a se assemelhar à distribuição anterior assumida.
O termo de regularização ajuda a garantir que o espaço latente permaneça
estruturado e contínuo.
6. Geração e Interpolação: Uma vez treinado, um VAE pode gerar novas amostras
de dados por amostragem do espaço latente e passando as amostras através
do decodificador. Além disso, como o espaço latente tem uma estrutura suave,
as interpolações entre pontos neste espaço resultam em interpolações
significativas no espaço de dados.
VAEs demonstraram sua eficácia em diversas aplicações, incluindo imagens

geração, compactação de dados e adaptação de domínio. Eles fornecem uma maneira baseada em
princípios de aprender representações latentes significativas de dados, ao mesmo tempo que geram novas
amostras diversas e realistas. No entanto, os VAEs podem produzir resultados ligeiramente confusos em
comparação com outros modelos generativos, como os GANs, devido ao compromisso inerente entre
a precisão da reconstrução e a diversidade da amostra na sua função objetivo.
Redes Adversariais Gerativas (GANs)

Redes generativas adversárias (GANs) são uma classe de modelos de aprendizado de máquina
projetados para gerar novos dados semelhantes a um determinado conjunto de dados. GANs consistem
em dois componentes principais: um gerador e um discriminador. O gerador cria amostras de dados
sintéticos, enquanto o discriminador avalia essas amostras e tenta distinguir entre dados reais e gerados.
Os dois componentes são treinados juntos em um processo competitivo, levando ao refinamento
tanto da capacidade do gerador de criar dados realistas quanto da capacidade do discriminador de
diferenciar entre dados reais e falsos:
1. Gerador (G): O gerador recebe ruído aleatório como entrada e o transforma em

dados que devem se assemelhar ao conjunto de dados de destino.
Inicialmente, sua saída pode não se parecer muito com os dados reais.
2. Discriminador (D): O discriminador atua como um classificador binário.

Ele pega dados reais do conjunto de dados de destino e dados gerados do
gerador como entrada e tenta determinar se a entrada é real (do conjunto de
dados) ou falsa (gerada pelo gerador).
157
3. Processo de treinamento: O treinamento de GANs envolve um adversário

processo. O gerador e o discriminador são treinados iterativamente.
Durante cada iteração:
– O gerador gera dados falsos a partir de ruído aleatório.
– O discriminador recebe dados reais e os dados falsos gerados,

e aprende a distinguir entre eles.
– Os parâmetros do gerador são ajustados para produzir melhor

dados falsos que o discriminador luta para diferenciar dos dados reais.
4. Objetivo: O objetivo do gerador é melhorar sua capacidade de

produzir dados que sejam tão convincentes que o discriminador não
consiga distingui-los dos dados reais. O objetivo do discriminador é
melhorar a classificação correta de dados reais e falsos.
5. Equilíbrio: À medida que o treinamento avança, o gerador e

O discriminador atinge um ponto de equilíbrio onde o gerador gera dados
que são cada vez mais difíceis para o discriminador distinguir dos dados
reais. Isso resulta na geração de dados sintéticos de alta qualidade.
GANs têm sido usados para diversas aplicações, incluindo síntese de imagens, estilo
transferência, super-resolução, aumento de dados e muito mais. Eles demonstraram a capacidade de
criar amostras de dados altamente realistas e foram responsáveis por avanços impressionantes
em modelagem generativa e visão computacional. No entanto, pode ser difícil treinar GANs devido
a problemas como colapso de modo (quando o gerador se concentra em um subconjunto limitado
de dados de destino) e instabilidade de treinamento.
Modelos de Difusão
Os modelos de difusão são uma classe relativamente nova de modelos generativos que se inspiram
em processos físicos como a difusão de partículas e conceitos da teoria da informação. Eles visam
gerar dados transformando iterativamente o ruído em informação estruturada, revertendo
essencialmente o processo de introdução do ruído.
158
Resumindo, os modelos de difusão funcionam da seguinte forma:
1. Cronograma de Ruído: É definida uma sequência de níveis de ruído, aumentando gradativamente do
ruído mínimo até o ruído mais significativo. Cada nível de ruído representa uma compensação
entre clareza e ruído nos dados.
2. Cadeia de Markov: Os modelos de difusão utilizam uma cadeia de Markov, que
consiste em múltiplas etapas correspondentes aos diferentes níveis de ruído na
programação. Em cada etapa, o modelo processa os dados adicionando ruído e
distorcendo-os gradualmente.
3. Modelagem Condicional: O modelo cria uma condicional

distribuição que estima a aparência dos dados em cada ruído
nível, dados os dados do nível anterior. Isso captura efetivamente a degradação dos dados
devido ao ruído.
4. Processo reverso: Após os dados terem sido processados através da cadeia de Markov
com níveis de ruído crescentes, um processo reverso é aplicado. Este processo
visa recuperar os dados originais removendo iterativamente o ruído, retrocedendo
no cronograma de ruído.
5. Objetivo de treinamento: Os modelos de difusão são treinados otimizando
os parâmetros para minimizar a diferença entre as distribuições de dados estimadas em

cada nível de ruído e os dados reais observados
nesses níveis. Isto normalmente é conseguido maximizando a probabilidade de
observar os dados, dada a difusão modelada
processo.
O conceito por trás dos modelos de difusão é representar a perda gradual de informação devido ao ruído e então
usar esse conhecimento para recuperar a informação original, desfazendo a introdução do ruído. Ao contrário dos modelos
generativos tradicionais que modelam diretamente a distribuição de dados, os modelos de difusão concentram-se
na modelagem do processo de adição e remoção de ruído.
Os modelos de difusão têm se mostrado promissores na geração de amostras de dados de alta qualidade com
características diversas. Eles têm o potencial de capturar distribuições de dados complexas e lidar com cenários em
que a qualidade dos dados se degrada com o tempo, o que pode ser particularmente útil para aplicações em geração
de imagens, eliminação de ruído de dados e muito mais.
159
No entanto, desde a minha última atualização em setembro de 2021, os modelos de difusão podem não ser
tão amplamente estudados ou implementados como outros modelos generativos, como GANs ou VAEs.
Tipos de modelos de difusão

Existem muitos tipos diferentes de modelos de difusão, mas alguns dos mais comuns incluem os
seguintes:
• Modelos probabilísticos de difusão e eliminação de ruído (DDPMs): DDPMs são um
tipo de modelo de difusão que começa com uma imagem com ruído e remove
gradualmente o ruído para revelar a imagem subjacente. Os DDPMs são treinados usando
uma técnica chamada estimativa de máxima verossimilhança, o que significa que
eles são treinados para minimizar a distância entre as imagens geradas e as imagens
reais no conjunto de dados de treinamento.
A Figura 8-1 ilustra modelos probabilísticos de difusão com eliminação de ruído.
Figura 8-1. Modelos probabilísticos de difusão de eliminação de ruído (DDPMs)
Referência: https:// learnopencv.com/ wp-content/
uploads/ 2023/02/ denoising-diffusion-probabilistic-models-
forward_and_backward_equations-1536x846.png
160
• Modelos de Difusão Baseados em Pontuação (SBMs): SBMs são um tipo de modelo de

difusão que utiliza uma função de pontuação para gerar imagens. A função de
pontuação é uma função que mede a probabilidade de uma imagem ser real. Os
SBMs são treinados por meio de uma técnica chamada treinamento adversário, o que
significa que são treinados para gerar imagens indistinguíveis de imagens
reais.
A Figura 8-2 ilustra modelos de difusão baseados em pontuação.
Figura 8-2. Modelos de difusão baseados em pontuação
• Modelos de difusão baseados em equações diferenciais estocásticas (SDE):

Os modelos de difusão baseados em SDE são um tipo de modelo de difusão que usa
uma equação diferencial estocástica (SDE) para gerar imagens. SDEs são equações
que descrevem a evolução de um processo aleatório ao longo do tempo.
Os modelos de difusão baseados em SDE são treinados usando uma técnica
chamada treinamento adversário generativo, o que significa que eles são treinados
para gerar imagens indistinguíveis de imagens reais.
A Figura 8-3 ilustra modelos de difusão baseados em equações diferenciais

estocásticas (SDE).
Figura 8-3. Modelos de difusão baseados em equações diferenciais estocásticas (SDE)
161
Os modelos de difusão têm sido usados com sucesso para uma variedade de tarefas, incluindo as
seguintes:
• Geração de Imagens: Modelos de difusão podem ser usados para gerar imagens realistas
a partir de descrições de texto.
• Síntese de texto para imagem: modelos de difusão podem ser usados para sintetizar
imagens a partir de descrições de texto.
• Transferência de estilo: modelos de difusão podem ser usados para transferir o estilo
de uma imagem para outra imagem.
• Super-resolução: Modelos de difusão podem ser usados para super-resolução de

imagens de baixa resolução.
Arquitetura
Os modelos de difusão são uma ferramenta poderosa para gerar conteúdo realista e criativo. Ainda estão
em desenvolvimento, mas têm o potencial de revolucionar a forma como criamos e interagimos com
imagens.
A arquitetura dos modelos de difusão é relativamente simples. Eles consistem em dois principais
componentes.
A Figura 8-4 ilustra o modelo de representação latente em modelos de difusão.
Figura 8-4. Modelo de representação latente em modelos de difusão
162
• Modelo de Representação Latente: O modelo de representação latente é

normalmente uma rede neural que recebe uma imagem como entrada e gera
uma representação latente da imagem. A representação latente é um vetor de
números que captura as características essenciais da imagem.
O modelo de representação latente é treinado em um conjunto de dados
de imagens reais. O objetivo do modelo de representação latente é aprender
um mapeamento de imagens para representações latentes, de modo que imagens
semelhantes entre si tenham representações latentes semelhantes.
O modelo de representação latente pode ser implementado usando qualquer tipo de rede neural,
mas redes neurais convolucionais (CNNs) são frequentemente utilizadas. As CNNs são adequadas para
tarefas de processamento de imagens porque podem aprender a extrair características de imagens em diferentes
escalas.
O modelo de representação latente é treinado usando uma técnica chamada máximo

estimativa de probabilidade. A estimativa de máxima verossimilhança é uma técnica estatística que
encontra os parâmetros de um modelo que maximizam a probabilidade dos dados observados. No caso
do modelo de representação latente, os dados observados são o conjunto de dados de imagens reais.
O objetivo da estimativa de máxima verossimilhança é encontrar os parâmetros do modelo de
representação latente que tornam o modelo mais provável de ter gerado as imagens reais no conjunto de dados.
A Figura 8-5 ilustra o processo de difusão em modelos de difusão.
Figura 8-5. Processo de difusão em modelos de difusão
163
• Processo de Difusão: O processo de difusão é uma cadeia de Markov que toma uma
representação latente como entrada e a modifica gradualmente para gerar uma
nova imagem. O processo de difusão é um processo probabilístico, o que significa
que só pode passar de um estado para outro de uma determinada maneira. O
processo de difusão é treinado para gerar imagens indistinguíveis de imagens
reais.
O processo de difusão funciona primeiro adicionando ruído à representação latente. A quantidade

de ruído adicionada é determinada por um parâmetro denominado taxa de difusão. A taxa de difusão
aumenta gradualmente à medida que o processo de difusão avança. Isto significa que as imagens geradas
tornam-se cada vez mais diferentes da imagem original à medida que o processo de difusão avança.
O processo de difusão pode ser implementado usando qualquer tipo de cadeia de Markov, mas
uma abordagem comum é usar um processo de difusão gaussiana. Um processo de difusão gaussiana é
uma cadeia de Markov que adiciona ruído gaussiano à representação latente em cada etapa.
O processo de difusão é treinado por meio de uma técnica chamada treinamento adversário.
O treinamento adversário é uma técnica de treinamento de modelos generativos que coloca dois modelos
um contra o outro. No caso de modelos de difusão, os dois modelos são o processo de difusão e um
discriminador. O discriminador é uma rede neural treinada para distinguir entre imagens reais e
imagens geradas.
O objetivo do treinamento adversário é treinar o processo de difusão para gerar imagens
que são tão realistas que o discriminador não consegue distingui-los das imagens reais.
Isso é feito atualizando iterativamente os parâmetros do processo de difusão e do discriminador até
que o discriminador seja incapaz de distinguir entre imagens reais e imagens geradas com alta confiança.
• Processo de decodificação: O processo de decodificação é normalmente uma rede

neural que recebe uma representação latente como entrada e gera uma imagem.
O processo de decodificação é treinado para reconstruir a imagem original a
partir da representação latente.
O processo de decodificação pode ser implementado usando qualquer tipo de rede neural,
mas as CNNs são frequentemente usadas. As CNNs são adequadas para tarefas de
reconstrução de imagens porque podem aprender a inverter as operações que foram realizadas
pelo modelo de representação latente.
164
O processo de decodificação é treinado usando uma técnica chamada perda de erro quadrático médio
(MSE). A perda MSE é uma função de perda que mede a diferença entre o reconstruído
imagem e a imagem original. O objetivo da perda MSE é minimizar a diferença entre a imagem
reconstruída e a imagem original.
Nos últimos anos, o campo da inteligência artificial (IA) testemunhou progressos significativos,
introduzindo diversas inovações. Uma adição notável ao cenário da IA é o surgimento de geradores de
imagens de IA. Essas ferramentas sofisticadas possuem a capacidade de transformar entradas textuais em
imagens vívidas ou representações artísticas. Entre a infinidade de opções disponíveis para soluções de IA
de texto para imagem, várias têm recebido atenção especial, as que se destacam são DALL-E 2, difusão
estável e Midjourney.
A tecnologia por trás do DALL-E 2

Você já ficou curioso para saber como a IA é capaz de transformar palavras em imagens? Imagine descrever
algo em texto e depois testemunhar a IA criar uma imagem com essa descrição.
A geração de imagens de alta qualidade apenas a partir de descrições textuais representa um desafio
significativo para os pesquisadores de IA. É precisamente aqui que o DALL-E e sua versão avançada,
DALL-E 2, entram em ação. Neste artigo, investigamos as complexidades do DALL-E 2.
Desenvolvido pela OpenAI, o DALL-E 2 é um modelo avançado de IA com a notável capacidade de
produzir imagens notavelmente realistas com base em descrições textuais. Mas como o DALL-E 2 consegue
esse feito e o que o diferencia? Ao longo desta postagem, estamos nos aprofundando nos conceitos e
técnicas fundamentais que sustentam o DALL-E 2. Exploraremos conceitos como pré-treinamento contrastivo
de imagem-linguagem (CLIP), modelos de difusão e pós-processamento. Além disso, abordaremos os recursos
computacionais necessários para treinar um modelo como o DALL-E 2, juntamente com os frameworks e
bibliotecas de aprendizagem profunda que facilitam sua implementação. Quando terminar de ler, você terá
uma compreensão sólida de como o DALL-E 2 funciona e o que o torna um avanço inovador no domínio da IA
generativa.
O DALL-E 2 representa uma versão evoluída do DALL-E original, operando dentro do

domínio de grandes modelos de linguagem. Este modelo generativo utiliza o poder dos modelos de difusão
para transformar descrições textuais em imagens tangíveis. Ele aproveita uma arquitetura codificador-
decodificador, com um fluxo de trabalho distinto centrado em incorporações contrastivas de pré-treinamento
de imagem-linguagem (CLIP):
165
1. Processamento de texto de entrada:
No início, o DALL-E 2 recebe descrições textuais fornecidas pelos usuários,

descrevendo a imagem que eles imaginam.
2. Codificação usando CLIP:
O texto de entrada passa por codificação usando a rede neural CLIP. O

CLIP é especialista em transformar entradas de texto e imagem em incorporações
de alta dimensão, capturando sua essência semântica. Isso resulta em uma
representação vetorial denominada embeddings de texto CLIP, encapsulando o
significado da descrição textual.
3. Conversão para incorporações de imagens CLIP via Prior:
Os embeddings de texto CLIP são então direcionados através de um “Prior”,

que pode ser um modelo autorregressivo ou de difusão. Esta é uma etapa crítica
onde ocorre a transição do texto para a imagem.
O Prior, operando como um modelo generativo, aproveita uma distribuição de

probabilidade para criar imagens realistas. Especificamente, o modelo de
difusão é favorecido devido ao seu desempenho superior na geração de imagens
de alta qualidade.
4. Geração de imagem final:
Uma vez que o Prior, particularmente o modelo de difusão, produz embeddings de

imagens CLIP, esses embeddings são transmitidos ao decodificador de
difusão.
O papel do decodificador de difusão é traduzir essas incorporações na imagem

final, concretizando a representação visual descrita no texto de entrada.
É importante ressaltar que houve experimentação durante o desenvolvimento

do DALL-E 2. Embora tenha sido tentada uma abordagem direta de uso
de incorporações de texto CLIP no decodificador (etapa 4), a integração de uma
abordagem anterior (etapa 3) revelou-se mais eficaz para melhorar a qualidade
da geração de imagem.
O processo distinto do DALL-E 2 permite transformar descrições textuais em imagens

complexas e significativas, mostrando o progresso notável na encruzilhada da
linguagem e da geração de imagens.
166
A Figura 8-6 ilustra o DALL-E 2.
Figura 8-6. DALL-E 2
O diagrama visual fornecido ilustra os seguintes conceitos:
Parte superior: Processo de treinamento CLIP
– A parte superior da imagem representa o processo de treinamento CLIP.

CLIP refere-se ao pré-treinamento contrastivo de linguagem-imagem.
– Esta etapa envolve o treinamento de um modelo que aprende um espaço

de representação compartilhado para dados textuais e de imagem.
– O resultado é um espaço de representação conjunta onde texto e imagens são

incorporados, permitindo que sejam comparados e relacionados de forma
significativa.
– Este espaço de representação partilhado constitui a base para

compreender a conexão entre as descrições textuais e as imagens correspondentes.
167
Parte Inferior: Processo de Geração de Texto para Imagem

– A parte inferior da imagem representa o processo de transformação
descrições de texto em imagens usando DALL-E 2.
– A entrada de texto, que descreve a imagem desejada, é alimentada

DALL-E 2.
– O texto de entrada é codificado usando o codificador CLIP, gerando uma representação

vetorial de alta dimensão conhecida como embeddings de texto CLIP.
– Esses embeddings são então processados através de um Prior, que é um modelo

generativo (seja modelo autorregressivo ou de difusão). O Prior gera embeddings
de imagens CLIP, capturando o conteúdo visual correspondente à descrição textual.
– Finalmente, esses embeddings de imagens CLIP são decodificados pelo decodificador de

difusão para produzir a imagem final que se alinha com a descrição de texto fornecida.
Conecta visualmente o treinamento do CLIP para representação conjunta de texto-imagem (parte superior)
com o posterior processo de geração de imagens a partir de texto utilizando DALL-E 2 (parte inferior).
Destaca a relação entre os embeddings aprendidos e a conversão desses embeddings em imagens concretas,
mostrando a interação entre informações textuais e visuais no contexto das operações do DALL-E 2.
A tecnologia por trás da difusão estável

A difusão estável é baseada em uma tecnologia sofisticada conhecida como modelo de difusão latente
(LDM). Esta tecnologia constitui o núcleo da abordagem da difusão estável para a síntese de texto para imagem.
Vamos explorar a tecnologia por trás da difusão estável:
168
Modelo de Difusão Latente (LDM)

O LDM constitui a espinha dorsal da metodologia de difusão estável. Ele aproveita os princípios dos
modelos de difusão e sua aplicação no espaço latente de autoencoders pré-treinados. A
tecnologia envolve vários componentes e conceitos principais:
1. Modelos de Difusão no Espaço Latente:
– Modelos de difusão, que transformam gradualmente os dados de entrada

adicionando ruído e depois tentando reconstruir os dados originais, são
adaptados para operar dentro do espaço latente.
– Em vez de aplicar a difusão diretamente aos dados de entrada (como

imagens), a difusão é aplicada no espaço latente dos autoencoders.
Isso introduz ruído nas representações latentes dos dados.
2. Autoencoders e representações latentes:
– Autoencoders são redes neurais projetadas para codificar dados de entrada em

uma representação latente compactada e decodificá-los de volta aos dados
originais.
– No contexto do LDM, o espaço latente de poderosos autoencoders pré-

treinados é utilizado. Este espaço latente captura características significativas
dos dados de entrada.
3. Treinamento e Otimização:
– O LDM é treinado para aprender a transformação de informações latentes
representações sob o processo de difusão.
– O treinamento envolve a otimização dos parâmetros do modelo para

garantir que o processo de difusão capte efetivamente a introdução de
ruído e a subsequente remoção de ruído no espaço latente.
4. Camada de atenção cruzada:
– Um aumento essencial na arquitetura LDM é a incorporação de

uma camada de atenção cruzada.
169
– Esta camada aprimora a capacidade do modelo de lidar com vários
entradas condicionais, como descrições de texto e caixas delimitadoras.
– Desempenha um papel fundamental na facilitação da síntese de imagens de
alta resolução por meio de métodos baseados em convolução.
Benefícios e Significância
– Eficiência Computacional: LDMs oferecem a vantagem de treinamento
modelos de difusão em recursos computacionais limitados, utilizando o espaço latente de

autoencoders pré-treinados.
– Complexidade e Fidelidade: Ao treinar a difusão dentro do espaço latente, os LDMs
conseguem um equilíbrio entre simplificar a representação e preservar detalhes
intrincados, resultando em maior fidelidade visual.
– Síntese Condicionada: A integração de uma camada de atenção cruzada
capacita LDMs a gerar imagens condicionadas a diversas entradas como texto,
contribuindo para sua versatilidade.
A difusão estável aproveita o potencial dos modelos de difusão latente para criar
uma estrutura inovadora que combina o poder dos modelos de difusão, representações latentes e
síntese condicionada. Esta tecnologia exemplifica a evolução contínua dos métodos de síntese de imagens
baseados em IA, oferecendo uma abordagem eficiente e eficaz para a criação de visuais atraentes a partir
de descrições textuais.
A tecnologia por trás do meio da jornada

Midjourney emprega uma tecnologia sofisticada para facilitar seus recursos de geração de texto para imagem.
Vamos nos aprofundar na tecnologia subjacente ao Midjourney:
Redes Adversariais Gerativas (GANs)

– GANs consistem em dois componentes: um gerador e um discriminador.
O gerador cria imagens com base em ruído aleatório, enquanto o discriminador
tenta diferenciar entre imagens reais e aquelas geradas pelo gerador.
170
– Este processo adversário obriga o gerador a melhorar continuamente a

geração de imagens para enganar o discriminador.
Síntese de texto para imagem com GANs

– Midjourney aproveita a arquitetura GAN para sintetizar imagens a partir de
descrições textuais.
– O gerador está condicionado a entradas de texto, garantindo que o

as imagens geradas se alinham com as descrições fornecidas.
– A entrada de texto é geralmente codificada em uma representação latente que

orienta o processo de geração de imagens.
GANs condicionais
– Midjourney emprega uma variante de GANs conhecida como GANs condicionais

(cGANs).
– Nas cGANs, tanto o gerador quanto o discriminador estão condicionados a

informações adicionais (neste caso, a descrição do texto).
– O condicionamento aprimora a capacidade do gerador de criar imagens que

correspondam a prompts de texto específicos.
Processo de Treinamento
• O processo de treinamento do Midjourney envolve a atualização iterativa do

componentes geradores e discriminadores.
• O gerador visa criar imagens que o discriminador não consegue distinguir das
reais, enquanto o discriminador visa melhorar a sua capacidade de
discriminação.
Funções de perda e otimização

• As funções de perda desempenham um papel crucial na orientação do processo de formação.
• O gerador e o discriminador são otimizados usando funções de perda

específicas que capturam a qualidade das imagens geradas e a precisão
da discriminação do discriminador.
171
Mecanismos de Atenção
• A tecnologia do Midjourney pode incorporar mecanismos de atenção para melhorar o foco do
gerador em partes relevantes da imagem.
• Os mecanismos de atenção permitem que o modelo enfatize seletivamente determinadas
regiões com base no texto de entrada, contribuindo para a geração de imagens
mais contextualmente relevantes.
Aumento e pré-processamento de dados

• Midjourney pode empregar técnicas de aumento de dados para expandir
o conjunto de dados de treinamento e melhorar a generalização.
• O pré-processamento de descrições textuais pode envolver técnicas como
tokenização e incorporação para converter texto em um formato adequado para

o modelo.
Benefícios e aplicações
• A tecnologia da Midjourney permite a criação de imagens realistas baseadas em
descrições textuais, tornando-a valiosa para diversas aplicações como design,
criação de conteúdo e visualização.
Em essência, a tecnologia da Midjourney capitaliza o poder dos GANs, especialmente dos GANs condicionais,
para transformar entradas textuais em imagens atraentes e contextualmente relevantes. Esta abordagem mostra a
sinergia entre linguagem e síntese de imagens, abrindo caminhos para aplicações inovadoras no domínio da IA
generativa.
Comparação entre DALL-E 2, difusão estável

e meio de jornada
1. DALL-E 2
– Dados de treinamento: treinados em milhões de imagens de banco de imagens, resultando
em uma saída sofisticada adequada para aplicações empresariais.
172
– Qualidade de imagem: Conhecida por produzir imagens de alta qualidade,
particularmente excelente ao gerar cenas complexas com mais de dois personagens.
– Caso de uso: adequado para uso em nível empresarial devido ao seu refinado
qualidade de saída.
– Estilo Artístico: Embora seja capaz de gerar vários estilos, DALL-E
2 enfatiza precisão e realismo.
– Acesso: Disponibilidade e detalhes de acesso não são especificados.
2. Meio da jornada:
– Estilo Artístico: Reconhecida pelo seu estilo artístico, produzindo imagens que mais
lembram pinturas do que fotografias.
– Operação: Utiliza um bot Discord para enviar e receber chamadas para servidores de
IA, fazendo com que as interações aconteçam dentro da plataforma Discord.
– Saída de imagem: gera principalmente visuais artísticos e criativos, alinhando-se com
sua ênfase na expressão artística.
– Caso de uso: Ideal para empreendimentos artísticos e criativos, mas pode não ser
ser otimizado para imagens realistas semelhantes a fotos.
– Acesso: detalhes de uso e acessibilidade não são explicitamente

mencionado.
3. Difusão Estável:
– Código aberto: Acessível a um público amplo como modelo de código

aberto.
– Compreensão Artística: Demonstra uma boa compreensão de
ilustração artística contemporânea, produzindo obras de arte complexas

e detalhadas.
– Criação de imagens: destaca-se principalmente na geração de ilustrações detalhadas
e criativas, menos adequadas para a criação de imagens simples como logotipos.
173
– Prompts Complexos: Requer interpretação clara de prompts complexos para

obter resultados ideais.
– Caso de uso: adequado para ilustrações criativas e detalhadas

obra de arte.
– Acesso: Acessível a uma ampla base de usuários devido à sua abertura

natureza fonte.
Resumindo:
– O DALL-E 2 se destaca pela qualidade de saída de nível empresarial e pela

capacidade de gerar cenas complexas com precisão.
– Midjourney é notável por seu estilo artístico e criativo, muitas vezes

produzindo imagens que lembram pinturas.
– A difusão estável é versátil, oferecendo ilustração artística detalhada e produção

criativa, especialmente para instruções complexas.
A escolha entre essas ferramentas depende do caso de uso específico, do estilo de imagem desejado e
do nível de detalhe necessário. Cada ferramenta tem seus pontos fortes únicos, tornando-as adequadas para
diversas aplicações criativas e práticas.
Formulários
As ferramentas de IA do gerador de imagens têm uma ampla gama de aplicações em vários setores e domínios.
Aqui estão algumas aplicações notáveis:
1. Criação e design de conteúdo:
– Essas ferramentas podem ser utilizadas para gerar conteúdo visual para sites,
mídias sociais, anúncios e campanhas de marketing.
– Os designers podem criar rapidamente imagens para acompanhar artigos, blogs

postagens e outros conteúdos escritos.
2. Visualização de conceito:
– Arquitetos e designers podem usar essas ferramentas para dar vida a conceitos,
gerando imagens baseadas em descrições textuais de edifícios, interiores e
paisagens.
174
3. Arte e Entretenimento:
– Os artistas podem usar estas ferramentas para transformar as suas ideias
imaginativas expressas em texto em verdadeiras obras de arte visuais.
– Os desenvolvedores de videogames podem criar cenas, personagens e recursos

com base em descrições escritas do jogo.
4. Moda e Design de Produto:
– Os designers podem gerar representações visuais de roupas, acessórios e

outros produtos antes de produzir protótipos físicos.
5. Contação de histórias e literatura:
– Os autores podem usar essas ferramentas para ilustrar cenas de suas histórias
ou crie sugestões visuais para inspiração.
– Os criadores de histórias em quadrinhos e histórias em quadrinhos podem traduzir roteiros para

visuais.
6. Materiais Educacionais:
– Professores e educadores podem usar essas ferramentas para gerar imagens

para materiais educacionais e apresentações.
– Os recursos visuais podem melhorar a aprendizagem, fornecendo exemplos concretos

para conceitos abstratos.
7. Comércio eletrônico e catálogos:
– As plataformas de comércio eletrônico podem gerar produtos automaticamente

imagens a partir de descrições textuais, auxiliando na criação de catálogos.
8. Visualização do protótipo:
– Engenheiros e desenvolvedores de produtos podem visualizar rapidamente

protótipos baseados em especificações escritas, auxiliando no design
processo.
9. Imagens Médicas e Visualização:
– Os profissionais médicos podem gerar representações visuais de condições
médicas, auxiliando na educação e comunicação do paciente.
175
10. Publicidade criativa:
– Os anunciantes podem criar visuais exclusivos e envolventes para

campanhas com base em resumos criativos escritos.
11. Design de Interiores:
– Os designers de interiores podem visualizar e experimentar

diferentes ideias de design com base em descrições de texto
antes de implementá-las.
12. Cinematografia e Storyboard:
– Cineastas e animadores podem usar essas ferramentas para criar
storyboards e pré-visualizar cenas.
13. Visualização de Pesquisa:
• Os pesquisadores podem visualizar dados complexos e resultados de

pesquisas, tornando-os mais acessíveis a um público mais amplo.
14. Previsão de moda:
• Os profissionais da indústria da moda podem gerar imagens de potenciais

tendências da moda com base em descrições de texto e previsões.
15. Geração automatizada de arte:
• Os artistas podem usar estas ferramentas para gerar obras de arte novas e
únicas, explorando novos estilos e composições.
Essas aplicações destacam a versatilidade dos modelos de difusão e das ferramentas de IA geradoras
de texto para imagem, demonstrando seu potencial para transformar descrições textuais em ativos visuais
valiosos em diversos campos.
Conclusão
O domínio das ferramentas de criação de imagens testemunhou uma evolução notável, com modelos
de difusão e ferramentas de IA geradoras de texto para imagem na vanguarda da inovação.
Os modelos de difusão, inspirados em processos físicos, oferecem uma nova abordagem para a
geração de imagens, adicionando ruído e posteriormente reconstruindo os dados originais. Esses
modelos, sejam empregados de forma independente ou dentro do espaço latente dos autoencoders,
176
encontre um equilíbrio delicado entre redução de complexidade e preservação de detalhes. A

incorporação de camadas de atenção cruzada capacita ainda mais os modelos de difusão, permitindo-
lhes atender a diversas entradas condicionais e produzindo resultados de alta resolução e
contextualmente relevantes.
Ferramentas de IA geradoras de texto para imagem, como DALL-E 2, difusão estável e
Midjourney, incorporam diversas estratégias para transformar descrições textuais em representações
visuais vívidas. Cada ferramenta tem pontos fortes distintos, desde a qualidade de saída de nível
empresarial do DALL-E 2 até a acessibilidade da difusão estável e a ênfase do Midjourney na
expressão artística. Essas ferramentas não apenas preenchem a lacuna entre a linguagem e o
conteúdo visual, mas também abrem caminho para novas aplicações em todos os setores. Da
criação e design de conteúdo à arquitetura, entretenimento, educação e muito mais, as aplicações
dessas ferramentas são amplas e diversificadas.
À medida que o campo continua a avançar, os modelos de difusão e as ferramentas de IA
geradoras de texto para imagem estão preparadas para redefinir a criatividade, o design e a
comunicação. A sua capacidade de aproveitar o poder da linguagem e das imagens tem o potencial de
transformar indústrias, melhorar as experiências dos utilizadores e inspirar novas formas de expressão.
Com tecnologias cada vez melhores e casos de utilização em expansão, o futuro promete possibilidades
entusiasmantes na intersecção da IA, da geração de imagens e da criatividade humana.
177
CAPÍTULO 9
Casos de uso do ChatGPT

Na era do GenAI, o ChatGPT se destaca como uma ferramenta notável e versátil com inúmeras aplicações
em diversos domínios. Desde a transformação do cenário dos negócios e do atendimento ao cliente até a
revolução da criação de conteúdo, estratégias de marketing e tarefas de linguagem e comunicação, os recursos
do ChatGPT transcendem as fronteiras tradicionais.
Desempenha um papel fundamental no desenvolvimento de software, saúde, pesquisa de mercado, escrita
criativa, educação, conformidade legal, funções de RH e análise de dados, demonstrando o seu imenso potencial
na forma como abordamos desafios complexos e na tomada de decisões em vários setores. Esta exploração
investiga os casos de uso multifacetados do ChatGPT em diferentes domínios, esclarecendo sua notável
adaptabilidade e impacto.
Negócios e Atendimento ao Cliente
1. Suporte ao Cliente:
ChatGPT pode revolucionar o suporte ao cliente, fornecendo assistência

instantânea e 24 horas por dia. Ele lida com uma ampla variedade de
dúvidas dos clientes, desde simples perguntas frequentes até problemas
complexos de solução de problemas. Através de seus recursos de
geração e compreensão de linguagem natural, o ChatGPT se envolve em
conversas humanas, garantindo que os clientes recebam informações oportunas e
respostas precisas.
Exemplo: um cliente entra em contato com um site de comércio eletrônico

com uma pergunta sobre as especificações de um produto. ChatGPT entende a
consulta, recupera as informações relevantes de sua base de conhecimento e
entrega uma resposta detalhada para a satisfação do cliente.
179
Capítulo 9 Casos de uso do ChatGPT
2. Informações sobre vendas e produtos:
ChatGPT passa a ser um assistente de vendas virtual, oferecendo aos clientes

informações sobre produtos e serviços. Ele auxilia na tomada de decisões,
fornecendo descrições detalhadas, especificações e preços, e até mesmo
sugerindo produtos relacionados com base nas preferências do cliente.
Exemplo: um potencial comprador está explorando laptops em um site de

eletrônicos. ChatGPT inicia uma conversa, perguntando sobre os requisitos e
preferências do comprador. Em seguida, recomenda laptops que atendam
às necessidades do comprador e fornece uma comparação de seus recursos.
3. Análise e melhoria de feedback:
As empresas podem usar o ChatGPT para analisar o feedback e o

sentimento dos clientes. Ao processar análises, comentários e pesquisas, o
ChatGPT fornece insights sobre as percepções dos clientes, ajudando as
empresas a identificar áreas de melhoria e ajustar seus produtos e serviços.
Exemplo: uma rede de restaurantes usa ChatGPT para analisar avaliações de

clientes. Ele detecta menções recorrentes de serviço lento e apresentação abaixo
da média. A gestão do restaurante toma medidas para resolver esses problemas,
levando a uma maior satisfação do cliente.
4. Recomendações personalizadas:
ChatGPT pode oferecer recomendações personalizadas aos clientes com base

em suas preferências e comportamento. Ao analisar interações anteriores
e histórico de compras, sugere produtos ou serviços que se alinham aos interesses
do cliente.
Exemplo: um usuário está navegando em uma loja de roupas online. ChatGPT

sugere roupas e acessórios que combinam com o estilo do usuário com base em
suas compras anteriores e histórico de navegação.
180
5. Acompanhamento de pedidos e atualizações de status:
Os clientes muitas vezes buscam informações sobre o status de seus pedidos e
detalhes de rastreamento. ChatGPT lida com essas dúvidas fornecendo

atualizações em tempo real sobre remessa, prazos de entrega e quaisquer atrasos.
Exemplo: um cliente pergunta sobre o status de seu pedido online. ChatGPT

recupera as informações de rastreamento mais recentes e informa ao cliente
que o pacote já foi entregue, juntamente com o tempo estimado de chegada.
6. Tratamento de devoluções e reembolsos:
ChatGPT auxilia os clientes a iniciar devoluções ou solicitar reembolsos,

orientando-os durante o processo. Ele explica as políticas de devolução, fornece
instruções para embalar itens e ajuda a gerar etiquetas de devolução.
Exemplo: um cliente deseja devolver um produto com defeito comprado

online. ChatGPT orienta o cliente durante o processo de devolução, explica
as etapas envolvidas e gera uma etiqueta de devolução para ele.
Na área de negócios e atendimento ao cliente, o ChatGPT aprimora o atendimento ao cliente
engajamento, agiliza as operações de suporte e oferece experiências personalizadas.

É importante observar que, embora o ChatGPT possa lidar com uma variedade de consultas de clientes,
pode haver casos em que a intervenção humana seja necessária, especialmente para questões complexas ou
delicadas. Além disso, as empresas devem garantir o uso ético dos dados dos clientes e fornecer uma
comunicação clara sobre o envolvimento da IA nas interações com os clientes.
Criação de Conteúdo e Marketing

1. Postagem de blog e geração de artigos:
ChatGPT pode auxiliar criadores de conteúdo gerando postagens em blogs e

artigos sobre diversos tópicos. Ele atende a uma determinada solicitação, pesquisa
informações relevantes e produz conteúdo coerente e informativo. Isso é
particularmente útil para manter um cronograma de publicação consistente e
dimensionar a produção de conteúdo.
181
Exemplo: Uma agência de viagens precisa publicar guias de destinos

regularmente. ChatGPT gera um guia detalhado para um local específico,
incluindo informações sobre atrações, culinária local e dicas de viagem.
2. Conteúdo de mídia social:
Criar conteúdo de mídia social envolvente e frequente pode consumir muito

tempo. ChatGPT ajuda gerando postagens, legendas e até respostas aos
comentários dos usuários. Adapta o conteúdo de acordo com o estilo da
plataforma e a voz da marca.
Exemplo: uma marca de moda deseja compartilhar inspirações de roupas

diárias no Instagram. ChatGPT cria legendas visualmente atraentes que
descrevem as roupas e fornecem dicas de estilo.
3. Conteúdo otimizado para SEO:
ChatGPT pode produzir conteúdo otimizado para mecanismos de busca,

incorporando palavras-chave e frases relevantes naturalmente. Isso
aumenta as chances de o conteúdo ter uma classificação mais elevada nos
resultados de pesquisa e atrair tráfego orgânico.
Exemplo: Uma empresa especializada em reformas residenciais deseja criar

artigos sobre projetos DIY. ChatGPT garante que os artigos incluam termos
comumente pesquisados relacionados a reforma e artesanato.
4. Campanhas de e-mail marketing:
Criar campanhas atraentes de marketing por e-mail é crucial para o

envolvimento do cliente. ChatGPT auxilia na redação de conteúdo de e-
mail que chama a atenção do destinatário, promove ofertas e incentiva
conversões.
Exemplo: uma empresa de comércio eletrônico está lançando uma venda.

ChatGPT ajuda a criar uma campanha de e-mail que destaca os itens em
promoção, enfatiza os descontos e inclui botões de call to action persuasivos.
182
5. Descrições do produto:
Ao adicionar novos produtos a uma loja online, escrever descrições de produtos
exclusivas e atraentes pode consumir muito tempo. ChatGPT agiliza o processo
gerando descrições de produtos que destacam recursos e benefícios.
Exemplo: um varejista de tecnologia apresenta um novo modelo de smartphone.
ChatGPT gera descrições de produtos concisas, porém informativas, que descrevem

as especificações do telefone, recursos da câmera e recursos exclusivos.
6. Mensagem e tom da marca:
Manter uma voz de marca consistente em diferentes plataformas de conteúdo é
essencial. ChatGPT auxilia na criação de conteúdo alinhado com a mensagem,
os valores e o tom da marca.
Exemplo: uma marca de fitness deseja comunicar uma mensagem motivacional e
fortalecedora. ChatGPT gera postagens nas redes sociais que inspiram os usuários a
perseguir seus objetivos de condicionamento físico e adotar um estilo de vida
saudável.
No contexto de criação e marketing de conteúdo, ChatGPT acelera a geração de conteúdo, libera
tempo para elaboração de estratégias e garante um fluxo constante de conteúdo de alta qualidade. No
entanto, é importante revisar e editar o conteúdo gerado pelo ChatGPT para alinhá-lo ao estilo e à mensagem
únicos da marca. Além disso, a supervisão humana garante que o conteúdo represente com precisão a visão
da marca e repercuta no público-alvo.
Desenvolvimento de Software e Suporte Técnico
1. Assistência e depuração de código:
ChatGPT prova ser uma ferramenta valiosa para desenvolvedores que buscam
ajuda em codificação. Ele pode fornecer explicações sobre conceitos de
programação, auxiliar na depuração de código e até mesmo oferecer soluções
para problemas comuns de codificação.
183
Exemplo: um desenvolvedor encontra um erro de sintaxe em seu código.

ChatGPT ajuda a identificar o problema analisando o trecho de código e
sugerindo correções.
2. Explicação dos Conceitos Técnicos:
Conceitos técnicos complexos podem ser difíceis de entender. ChatGPT atua como
um companheiro experiente, dividindo ideias, algoritmos e teorias intrincadas
em explicações de fácil digestão.
Exemplo: Um estudante de ciência da computação tem dificuldade para

entender o conceito de recursão. ChatGPT fornece uma explicação passo
a passo, esclarecendo o processo e o propósito da recursão.
3. Solução de problemas técnicos e solução de problemas:
ChatGPT auxilia os usuários na solução de problemas técnicos. Ele orienta os

usuários através de uma série de perguntas para diagnosticar problemas, sugere
possíveis soluções e fornece instruções para resolução.
Exemplo: a impressora de um usuário não está funcionando. ChatGPT faz

perguntas relevantes sobre o status, conectividade e mensagens de erro da
impressora. Em seguida, fornece etapas de solução de problemas para
resolver o problema.
4. Aprendendo novas linguagens de programação:
Para desenvolvedores que se aventuram em novas linguagens de

programação, o ChatGPT oferece orientação. Ele pode gerar trechos de código
de amostra, explicar a sintaxe da linguagem e fornecer recursos para aprendizagem.
Exemplo: um desenvolvedor em transição de Python para JavaScript busca

ajuda para escrever uma função em JavaScript. ChatGPT fornece um trecho de
código de exemplo que realiza a tarefa desejada.
5. Documentação e uso de API:
Navegar pela documentação e compreender as APIs pode ser assustador.

ChatGPT auxilia explicando a documentação, oferecendo exemplos de uso e
ajudando os desenvolvedores a integrar APIs.
184
Exemplo: um desenvolvedor deseja integrar uma API de gateway de pagamento em seu
site de comércio eletrônico. ChatGPT os orienta pela documentação da API e fornece trechos
de código para integração.
6. Melhores práticas de software:
ChatGPT pode compartilhar insights sobre práticas recomendadas de codificação,
padrões de design e princípios de arquitetura de software. Ajuda os desenvolvedores a
escrever códigos mais limpos e eficientes.
Exemplo: Um desenvolvedor júnior busca aconselhamento sobre como escrever código
sustentável. ChatGPT fornece dicas sobre programação modular, comentários de
código e controle de versão.
As aplicações do ChatGPT em desenvolvimento de software e suporte técnico agilizam o processo de
desenvolvimento, aprimoram o aprendizado e simplificam a solução de problemas. No entanto, os desenvolvedores devem
ter cautela e usar o seu próprio julgamento, especialmente em cenários críticos, já que as soluções do ChatGPT nem
sempre levam em conta considerações específicas do contexto.
Entrada e análise de dados

Pesquisa recente A transformação do ChatGPT em um interpretador de código agora chamado de ferramenta de
“Análise Avançada de Dados” significa uma evolução significativa em suas capacidades. Com esse aprimoramento, tornou-
se um recurso poderoso para profissionais e analistas de dados, capaz não apenas de compreender e gerar
código, mas também de oferecer insights avançados sobre técnicas de análise de dados, modelagem estatística,
visualização de dados e muito mais. Essa funcionalidade expandida permite que os usuários extraiam insights mais profundos
de seus dados, fornecendo assistência valiosa em uma ampla gama de tarefas baseadas em dados e tornando-os um ativo
inestimável no campo da análise de dados:
1. Assistência para entrada de dados:
ChatGPT auxilia nas tarefas de entrada de dados transcrevendo dados manuscritos ou
digitados, inserindo informações em planilhas ou bancos de dados e organizando os dados
de acordo com formatos especificados.
Exemplo: Uma equipe de pesquisa precisa digitalizar as respostas da pesquisa.
ChatGPT transcreve as respostas dos formulários em papel para uma planilha digital.
185
2. Limpeza e pré-processamento de dados:
Antes da análise, os dados geralmente requerem limpeza e pré-processamento.

ChatGPT ajuda a identificar e corrigir inconsistências, valores ausentes e
erros no conjunto de dados.
Exemplo: um analista está preparando um conjunto de dados para análise.

ChatGPT identifica e sugere correções para entradas duplicadas e pontos
de dados ausentes.
3. Análise e visualização básica de dados:
ChatGPT executa tarefas simples de análise de dados, como cálculo de médias,

geração de gráficos e resumo de tendências. Ajuda na compreensão dos insights
básicos dos dados.
Exemplo: uma equipe de marketing deseja visualizar dados de vendas. ChatGPT

gera gráficos de barras e gráficos de linhas para ilustrar tendências de vendas
durante um período específico.
4. Interpretação e insights de dados:
ChatGPT auxilia na interpretação das descobertas dos dados, oferecendo

insights baseados em padrões e tendências observados no conjunto de dados. Ele
fornece explicações para descobertas significativas.
Exemplo: um analista percebe uma queda repentina no tráfego do site.

ChatGPT sugere possíveis explicações, como uma alteração recente no
algoritmo ou um problema técnico.
5. Análise Comparativa:
ChatGPT auxilia na comparação de conjuntos de dados ou diferentes

variáveis dentro de um conjunto de dados. Ajuda a identificar correlações,
diferenças e relacionamentos entre pontos de dados.
Exemplo: uma empresa deseja comparar os índices de satisfação do cliente

de duas linhas de produtos diferentes. ChatGPT calcula pontuações médias
de satisfação para cada linha e destaca as diferenças.
186
6. Relatório e resumo de dados:
ChatGPT gera resumos e relatórios com base na análise de dados.

Apresenta as principais descobertas, tendências e insights em um formato coerente
e compreensível.
Exemplo: Um analista precisa resumir um relatório trimestral de vendas.

ChatGPT gera um relatório conciso destacando tendências de receita, produtos
mais vendidos e desempenho regional.
As aplicações do ChatGPT na entrada e análise de dados simplificam as tarefas

relacionadas aos dados, especialmente para análise e organização básicas.
No entanto, é importante observar que, para análises complexas de dados,
modelagem estatística e interpretação aprofundada, o envolvimento de
especialistas e analistas de dados continua sendo crucial para insights precisos
e tomada de decisões.
Cuidados de saúde e informações médicas
1. Informações Médicas Gerais:
ChatGPT pode fornecer informações médicas gerais aos usuários que

buscam informações sobre sintomas, condições, tratamentos e medidas
preventivas. Ele atua como uma fonte confiável de conhecimento médico
introdutório.
Exemplo: um usuário sente dores de cabeça persistentes e busca informações

sobre possíveis causas. ChatGPT oferece explicações sobre vários fatores que
podem contribuir para dores de cabeça e
aconselha consultar um profissional médico para um diagnóstico preciso.
2. Verificador de sintomas e autoavaliação:
ChatGPT ajuda os usuários a compreender seus sintomas, fazendo perguntas

específicas sobre sua condição. Ele oferece insights sobre possíveis causas e
sugere se é aconselhável procurar atendimento médico.
187
Exemplo: um usuário descreve sintomas como febre e dores no corpo.

ChatGPT conversa sobre verificação de sintomas, sugere possíveis diagnósticos
como gripe e aconselha repouso e hidratação.
3. Informações sobre medicamentos e tratamento:
Para usuários curiosos sobre os efeitos colaterais dos medicamentos,

instruções de uso e possíveis interações, o ChatGPT fornece informações
relevantes com base em sua base de conhecimento médico.
Exemplo: Um usuário recebe uma prescrição de um novo medicamento e

deseja saber sobre possíveis efeitos colaterais. ChatGPT descreve os efeitos
colaterais comuns e aconselha o usuário a consultar seu médico se ocorrer alguma
reação adversa.
4. Dicas de bem-estar e hábitos saudáveis:
ChatGPT pode oferecer conselhos gerais de bem-estar, incluindo dicas sobre

como manter um estilo de vida saudável, controlar o estresse e adotar medidas
preventivas.
Exemplo: um usuário pergunta sobre estratégias para melhorar a qualidade do sono.

ChatGPT fornece dicas como manter um horário de sono consistente, criar um
ambiente de sono confortável e limitar o tempo de tela antes de dormir.
5. Explicação dos Termos Médicos:
O jargão médico pode ser intimidante para indivíduos sem formação médica.
ChatGPT simplifica a terminologia médica, explicando termos, siglas e abreviações.
Exemplo: um usuário se depara com o termo “hipertensão” e não tem certeza

sobre seu significado. ChatGPT explica que se refere à hipertensão e fornece uma
breve visão geral de suas implicações.
6. Preparação para consultas médicas:
ChatGPT ajuda os usuários a se prepararem para consultas médicas, sugerindo
perguntas a serem feitas aos profissionais de saúde, destacando informações
importantes para compartilhar e oferecendo dicas para uma comunicação eficaz.
188
Exemplo: Um usuário tem consulta médica agendada devido a uma

condição crônica. O ChatGPT disponibiliza uma lista de perguntas a
serem feitas ao médico, garantindo que o usuário reúna todas as
informações necessárias.
O papel do ChatGPT na área da saúde oferece informações acessíveis
e orientação, especialmente para entendimento preliminar e dúvidas não

urgentes. No entanto, é fundamental enfatizar que o ChatGPT nunca deve
substituir o aconselhamento médico profissional. Os usuários devem sempre
consultar profissionais de saúde qualificados para diagnósticos precisos e
recomendações de tratamento.
Pesquisa e Análise de Mercado

1. Análise e resumo da pesquisa:
ChatGPT pode analisar as respostas da pesquisa e resumir as principais

conclusões. Ele auxilia os pesquisadores na identificação de tendências,
sentimentos e padrões comuns em grandes conjuntos de dados de pesquisas.
Exemplo: Uma empresa realiza uma pesquisa de satisfação do cliente.

ChatGPT analisa os resultados da pesquisa, destaca as áreas com os
maiores índices de satisfação e identifica preocupações recorrentes.
2. Informações sobre feedback do cliente:
As empresas recebem uma grande quantidade de feedback dos clientes em
várias plataformas. ChatGPT ajuda a extrair insights desses canais de feedback,

categorizar comentários e identificar tendências emergentes.
Exemplo: um varejista de comércio eletrônico deseja entender os sentimentos

dos clientes a partir de análises de produtos. ChatGPT categoriza o feedback em
sentimentos positivos, negativos e neutros, fornecendo uma visão geral das
opiniões dos clientes.
189
3. Análise do Concorrente:
ChatGPT auxilia as empresas na análise de seus concorrentes, coletando
informações de diversas fontes e resumindo seus pontos fortes, fracos, posicionamento
de mercado e estratégias.
Exemplo: Uma startup de tecnologia quer avaliar seus concorrentes no mercado
de smartphones. ChatGPT compila informações sobre recursos, preços e avaliações
de usuários dos concorrentes, oferecendo uma análise abrangente.
4. Identificação e previsão de tendências:
ChatGPT pode analisar tendências de mercado processando dados de mídias
sociais, artigos de notícias e relatórios do setor. Identifica tendências e padrões
emergentes que podem orientar a tomada de decisões estratégicas.
Exemplo: uma marca de moda deseja prever os estilos de roupas populares da
próxima estação. ChatGPT analisa conversas em mídias sociais e blogs de
moda para prever as próximas tendências.
5. Análise do Comportamento do Consumidor:
ChatGPT auxilia na compreensão do comportamento do consumidor,
analisando padrões de compra, preferências e motivações de compra. Ele
fornece insights que informam campanhas de marketing e desenvolvimento de produtos.
Exemplo: um varejista on-line deseja entender por que determinados produtos são
populares em épocas específicas. ChatGPT analisa dados de compras e identifica
tendências no comportamento do consumidor.
6. Perfil do segmento de mercado:
ChatGPT ajuda as empresas a traçar o perfil de diferentes segmentos de mercado
com base em fatores demográficos, geográficos e psicográficos.
Ajuda a adaptar estratégias de marketing a segmentos de público específicos.
190
Exemplo: um fabricante de eletrônicos deseja atingir um grupo demográfico

específico para o lançamento de um novo produto. ChatGPT cria perfis de potenciais
clientes, delineando suas preferências e interesses.
As aplicações do ChatGPT em pesquisa e análise de mercado

simplificam o processamento de dados, oferecem insights acionáveis e permitem
que as empresas tomem decisões informadas. No entanto, a experiência
humana continua a ser essencial para interpretar e contextualizar os resultados,

garantindo que as estratégias empresariais se baseiam numa compreensão
abrangente da dinâmica do mercado.
Escrita Criativa e Contação de Histórias
1. Geração de ideias e brainstorming:
ChatGPT torna-se um colaborador criativo, auxiliando escritores na geração

de ideias para histórias, artigos, postagens em blogs e projetos criativos. Ele
desperta a criatividade ao sugerir enredos, personagens, cenários e temas.
Exemplo: Um autor fica paralisado ao debater ideias para um novo romance.

ChatGPT propõe um conceito único que envolve viagens no tempo e realidades
alternativas, reacendendo o processo criativo do autor.
2. Desenvolvimento do enredo e esboço da história:
ChatGPT ajuda os escritores a estruturar suas histórias, fornecendo

orientação sobre o desenvolvimento do enredo. Ele auxilia na criação de arcos
de história, na construção de suspense e no mapeamento da sequência de eventos.
Exemplo: um roteirista deseja esboçar um piloto atraente de uma série de

TV. ChatGPT auxilia na elaboração do enredo do episódio piloto, na introdução
de personagens e na criação de histórias futuras.
3. Criação e Desenvolvimento de Personagem:
Criar personagens envolventes é crucial para contar histórias. ChatGPT ajuda os

escritores a desenvolver personagens completos, sugerindo traços de personalidade,
histórias de fundo, motivações e arcos de personagens.
191
Exemplo: Um escritor de fantasia está criando um novo protagonista. ChatGPT

sugere uma história complexa envolvendo um evento trágico e uma
habilidade mágica oculta, adicionando profundidade ao personagem.
4. Redação de Diálogos:
O diálogo natural e envolvente é essencial para contar histórias.

ChatGPT ajuda escritores a criar diálogos autênticos, sugerindo falas, nuances
emocionais e interações
entre personagens.
Exemplo: Um dramaturgo está trabalhando em uma cena dramática. ChatGPT

oferece linhas de diálogo que transmitem tensão e conflito entre os
personagens, potencializando o impacto da cena.
5. Descrições de construção de mundo e cenário:
Para uma narrativa envolvente, a construção de mundos vívidos e cenários

descritivos são essenciais. ChatGPT auxilia os escritores na criação de
configurações ricamente detalhadas e descrições evocativas.
Exemplo: Um autor de ficção científica deseja descrever um planeta

alienígena. ChatGPT fornece detalhes sensoriais sobre a flora, fauna e
atmosfera únicas do planeta, pintando um quadro vívido.
6. Instruções criativas e exercícios de escrita:
ChatGPT oferece sugestões criativas e exercícios de escrita para

superar o bloqueio de escritor e estimular a imaginação. Ele fornece pontos de
partida para contos, poemas e experimentos criativos.
Exemplo: Um poeta está em busca de inspiração para um novo poema.

ChatGPT fornece uma reflexão instigante sobre a beleza da natureza, inspirando
o poeta a criar uma peça descritiva.
As aplicações do ChatGPT em escrita criativa e narrativa de histórias

capacitam os escritores a superar desafios, explorar novas ideias e dar vida
às suas narrativas. Embora ajude na criatividade
processo, o julgamento humano e a edição continuam cruciais para garantir a

coerência narrativa, a ressonância emocional e a voz única do escritor.
192
Educação e Aprendizagem
1. Tutoria Virtual e Explicação do Conceito:
ChatGPT atua como tutor virtual, auxiliando os alunos na

compreensão de conceitos complexos. Ele explica assuntos acadêmicos,
analisa teorias e oferece soluções passo a passo para problemas.
Exemplo: Um estudante do ensino médio tem dificuldade com cálculo. ChatGPT

fornece explicações sobre princípios de cálculo e ajuda a resolver
problemas práticos, auxiliando na compreensão do aluno.
2. Ajuda com trabalhos de casa e tarefas:
ChatGPT auxilia os alunos na realização de trabalhos de casa e tarefas,

fornecendo orientação, sugerindo abordagens e respondendo a perguntas
relacionadas às tarefas.
Exemplo: Um aluno deve escrever uma redação sobre um evento histórico.

ChatGPT oferece sugestões de pesquisa, descreve pontos-chave e fornece
insights para estruturar o ensaio de forma eficaz.
3. Aprendizagem e prática de línguas:
ChatGPT torna-se um companheiro de aprendizagem de idiomas,

envolvendo os alunos em conversas, corrigindo frases e sugerindo palavras
de vocabulário para melhorar a proficiência no idioma.
Exemplo: Um aluno de um idioma deseja praticar espanhol. ChatGPT inicia uma

conversa, corrige erros gramaticais e introduz novo vocabulário no
contexto.
4. Geração de recursos de estudo:
ChatGPT auxilia os alunos gerando recursos de estudo, como flashcards,

resumos e questões práticas. Ele condensa material extenso e ajuda os
alunos a revisar com eficácia.
Exemplo: Um aluno se prepara para um exame de história. ChatGPT

gera resumos concisos dos principais eventos históricos, auxiliando na revisão
de última hora do aluno.
193
5. Assistência à Pesquisa:
Para projetos de pesquisa, o ChatGPT auxilia os alunos a encontrar fontes

relevantes, formular questões de pesquisa e organizar informações para
criar artigos bem estruturados.
Exemplo: Um estudante universitário está conduzindo uma pesquisa sobre

mudanças climáticas. ChatGPT sugere fontes confiáveis, ajuda a refinar
questões de pesquisa e descreve uma estrutura de artigo de pesquisa.
6. Explorando novos temas e curiosidades:
ChatGPT incentiva o aprendizado movido pela curiosidade, fornecendo

explicações sobre uma ampla variedade de tópicos. Ele satisfaz as dúvidas dos
alunos e estimula uma exploração mais aprofundada.
Exemplo: Um aluno curioso deseja compreender os fundamentos da física

quântica. ChatGPT oferece uma explicação introdutória, desmistificando
conceitos complexos.
As aplicações do ChatGPT em educação e aprendizagem vão além das salas de aula tradicionais,
oferecendo assistência personalizada, promovendo a aprendizagem autodirigida e auxiliando os alunos em sua
jornada acadêmica. Embora o ChatGPT melhore as experiências de aprendizagem, a orientação dos
educadores, a estrutura curricular e o desenvolvimento do pensamento crítico continuam a ser componentes
essenciais de uma educação eficaz.
Jurídico e Conformidade
1. Pesquisa Jurídica e Análise Jurisprudencial:
ChatGPT auxilia profissionais jurídicos conduzindo pesquisas jurídicas e resumindo

a jurisprudência. Extrai informações relevantes de bases de dados jurídicas,
ajudando os advogados a construir argumentos mais fortes e a tomar decisões
informadas.
Exemplo: Um advogado está a preparar um caso que envolve direitos de

propriedade intelectual. O ChatGPT compila exemplos relevantes de
jurisprudência, auxiliando o advogado na compreensão dos precedentes.
194
2. Elaboração de Documentos Legais:
ChatGPT auxilia na elaboração de documentos legais, como contratos,

acordos e cartas. Ele gera modelos, orienta sobre linguagem e estrutura e garante
que os documentos cumpram as normas legais.
Exemplo: Um empresário precisa de um acordo de confidencialidade.

ChatGPT ajuda a criar um acordo abrangente, incluindo cláusulas de
confidencialidade e terminologia legal.
3. Definições e explicações legais:
A terminologia jurídica pode ser complexa para profissionais não jurídicos.

ChatGPT simplifica conceitos jurídicos, fornecendo definições, explicações
e contexto para vários termos jurídicos.
Exemplo: o proprietário de uma empresa encontra o termo “delito”. ChatGPT

explica o conceito de responsabilidade civil, seus tipos e implicações para as
operações comerciais.
4. Diretrizes e Regulamentos de Conformidade:
ChatGPT auxilia as empresas a compreender e aderir às regulamentações

legais e padrões de conformidade. Oferece explicações sobre requisitos
regulatórios e sugere etapas para conformidade.
Exemplo: Uma empresa deseja garantir a conformidade com os

regulamentos de proteção de dados. ChatGPT descreve as principais
disposições das leis relevantes de privacidade de dados e fornece
recomendações para conformidade.
5. Assessoria jurídica para questões comuns:
Para questões e preocupações jurídicas cotidianas, ChatGPT oferece

aconselhamento e orientação jurídica preliminar. Ele aborda dúvidas
relacionadas a contratos, legislação trabalhista, responsabilidade e muito mais.
Exemplo: O proprietário de uma pequena empresa não tem certeza sobre os

procedimentos de demissão de funcionários. ChatGPT explica as etapas
legais envolvidas na demissão adequada de um funcionário.
195
6. Orientação sobre Propriedade Intelectual:
ChatGPT auxilia na navegação em questões de propriedade intelectual, fornecendo
insights sobre direitos autorais, marcas registradas e patentes. Explica o processo
de registro e proteção da propriedade intelectual.
Exemplo: um artista deseja proteger sua obra de arte contra uso não
autorizado. ChatGPT explica os fundamentos da lei de direitos autorais, incluindo como
registrar seu trabalho.
As aplicações do ChatGPT em questões jurídicas e de conformidade agilizam a
pesquisa jurídica, simplificam os processos de documentação e oferecem
orientação preliminar. No entanto, é importante observar que as respostas do
ChatGPT não devem substituir o aconselhamento jurídico profissional.
Os profissionais jurídicos devem ser consultados para questões jurídicas complexas e

decisões críticas.
RH e Recrutamento
1. Triagem de Candidatos e Entrevistas Iniciais:
ChatGPT auxilia profissionais de RH na realização de triagens preliminares de
candidatos. Ele interage com os candidatos, faz perguntas relevantes e avalia as
respostas dos candidatos pré-selecionados para avaliação adicional.
Exemplo: Um gerente de RH precisa analisar um grande volume de formulários de
emprego. O ChatGPT realiza breves entrevistas com os candidatos, perguntando sobre
suas qualificações e experiência.
2. Elaboração de descrição de trabalho:
Elaborar descrições de cargos atraentes é essencial para atrair candidatos
adequados. ChatGPT auxilia na criação de anúncios de emprego detalhados
e envolventes que destacam responsabilidades, qualificações e cultura da
empresa.
Exemplo: uma empresa está contratando um gerente de mídia social. ChatGPT gera
uma descrição de cargo que comunica de forma eficaz as expectativas da função e
a marca da empresa.
196
3. Suporte de integração de funcionários:
ChatGPT auxilia na integração de funcionários, fornecendo informações sobre as
políticas da empresa, benefícios e o processo de integração. Ele responde às
perguntas dos novos contratados e garante uma transição tranquila.
Exemplo: Um novo funcionário deseja saber mais sobre a política de férias
da empresa. ChatGPT fornece uma visão geral da política e como solicitar folga.
4. Treinamento e Assistência ao Desenvolvimento:
Profissionais de RH podem usar o ChatGPT para oferecer recursos de
treinamento e oportunidades de desenvolvimento. Recomenda cursos online,
workshops e atividades de desenvolvimento de habilidades com base nos
objetivos de carreira dos funcionários.
Exemplo: Um funcionário expressa interesse em melhorar suas habilidades de
gerenciamento de projetos. ChatGPT sugere cursos e recursos relevantes para o

desenvolvimento profissional.
5. Assistência ao Funcionário e Esclarecimento de Políticas:
ChatGPT auxilia os funcionários na compreensão das políticas, benefícios e
procedimentos de RH da empresa. Ele fornece informações sobre políticas de licença,
procedimentos de reclamação e muito mais.
Exemplo: Um funcionário deseja saber o procedimento para denunciar assédio no local
de trabalho. ChatGPT explica os passos a seguir e enfatiza a importância dos
relatórios.
6. Preparação e dicas para entrevistas:
Para quem procura emprego, o ChatGPT oferece orientações para preparação para
entrevistas. Ele sugere perguntas comuns em entrevistas, fornece dicas para
respostas eficazes e oferece insights sobre etiqueta em entrevistas.
Exemplo: Um candidato a emprego está nervoso com uma entrevista que

está por vir. ChatGPT fornece conselhos sobre como se preparar, responder
perguntas com confiança e causar uma impressão positiva.
197
As aplicações do ChatGPT em RH e recrutamento otimizam os processos de contratação, aprimoram as

experiências dos candidatos e agilizam a comunicação entre profissionais de RH e funcionários. Embora o
ChatGPT possa oferecer suporte a várias tarefas, é importante observar que o envolvimento humano continua
essencial para a tomada de decisões diferenciadas, avaliação de habilidades interpessoais e abordagem de
questões complexas de RH.
Assistente Pessoal e Produtividade

1. Gerenciamento de tarefas e lembretes:
ChatGPT atua como um gerenciador de tarefas virtual, ajudando os usuários a

organizar suas listas de tarefas, definir lembretes para compromissos e
gerenciar prazos de tarefas e projetos.
Exemplo: um usuário agenda uma reunião e pede ao ChatGPT para lembrá-lo 15

minutos antes do início da reunião.
2. Coordenação do Calendário:
ChatGPT auxilia no agendamento e coordenação de eventos. Verifica a

disponibilidade, propõe horários de reunião adequados e ajuda os usuários a
agendar compromissos.
Exemplo: um profissional deseja marcar uma reunião virtual com colegas de

diferentes fusos horários. ChatGPT sugere horários de reunião ideais que se
adaptam às agendas de todos.
3. Recuperação de informações:
ChatGPT recupera rapidamente informações da Web ou de bancos de dados,

economizando tempo dos usuários na busca por fatos, números, definições ou
dados históricos.
Exemplo: Um aluno precisa de informações para um trabalho de pesquisa.

ChatGPT recupera artigos, estatísticas e fontes relevantes sobre o tema escolhido.
198
4. Anotação e resumo:
ChatGPT auxilia na tomada de notas durante reuniões, aulas ou conferências.
Ele também pode resumir documentos extensos, resumindo pontos-chave para fácil
referência.
Exemplo: um usuário participa de uma conferência e pede ao ChatGPT para fazer
anotações. ChatGPT cria um resumo conciso das sessões da conferência.
5. Tradução de idiomas em movimento:
ChatGPT atua como tradutor de idiomas, auxiliando os usuários na tradução em tempo
real de conversas, textos ou conteúdo de um idioma para outro.
Exemplo: Um viajante precisa de ajuda para traduzir placas de rua e cardápios enquanto
explora um país estrangeiro. ChatGPT fornece traduções instantâneas.
6. Recomendações personalizadas:
ChatGPT sugere livros, filmes, músicas, restaurantes e muito mais com base nas
preferências dos usuários. Pode ajudar os usuários a descobrir novos conteúdos

ou tomar decisões.
Exemplo: um usuário pede ao ChatGPT recomendações de livros do gênero
mistério. ChatGPT fornece uma lista de romances de mistério altamente cotados.
7. Assistência de condicionamento físico e bem-estar:
ChatGPT oferece rotinas de exercícios, conselhos nutricionais e dicas de bem-estar.
Ajuda os usuários a definir metas de condicionamento físico e sugere exercícios com
base em suas preferências.
Exemplo: um usuário deseja iniciar uma rotina de exercícios em casa. ChatGPT elabora
um plano de treino personalizado com diferentes exercícios e níveis de intensidade.
199
Os aplicativos do ChatGPT como assistente pessoal e ferramenta de produtividade

agilizam as tarefas diárias, melhoram a organização e fornecem acesso
conveniente às informações. No entanto, embora o ChatGPT possa lidar com
várias tarefas, o julgamento humano e a tomada de decisões são cruciais,

especialmente em cenários que exigem raciocínio complexo ou avaliações
subjetivas.
Exemplos
Até agora vimos o caso de uso por domínio usando ChatGPT. Agora vamos pegar alguns exemplos de casos
de uso e perguntar ao ChatGPT:
1. Domínio – RH e Recrutamento:
Para a localização de Bangalore, peçamos para criar uma descrição de cargo

para um cientista de dados que tenha experiência mínima de três anos e deva
ter experiência prática em Python e PySpark na área de saúde.
A Figura 9-1 mostra a resposta do ChatGPT.
200
Figura 9-1. Resposta do ChatGPT, por exemplo 1
201
Figura 9-1. (contínuo)
202
2. Domínio – Desenvolvimento de Software e Suporte Técnico:
Explique o seguinte trecho de código:
def pesquisa_binária(arr, baixo, alto, x):
se alto >= baixo:
médio = (alto + baixo) // 2
if arr[meio] == x:
retornar meio
elif arr[mid] > x: retornar

pesquisa_binária(arr, baixo, médio - 1, x)
outro:
retornar pesquisa_binária(arr, médio + 1, alto, x)
outro:
retornar -1
203
204
3. Domínio – Educação e Aprendizagem:
Traduza como você está em hindi.
4. Resposta a perguntas:
Quem é o pai do computador?
A Figura 9-4 mostra a saída do ChatGPT.
Conclusão
As aplicações versáteis do ChatGPT em vários domínios mostram seu potencial
transformador. Seja melhorando as interações de atendimento ao cliente, simplificando a
criação de conteúdo e os esforços de marketing, facilitando tarefas linguísticas e de
comunicação, capacitando o desenvolvimento de software e suporte técnico,
revolucionando o gerenciamento de informações médicas e de saúde ou impulsionando o mercado
205
pesquisa e análise, o ChatGPT prova consistentemente sua adaptabilidade e utilidade.

Além disso, a sua proficiência em escrita criativa, educação, conformidade legal, funções
de RH e análise de dados sublinha ainda mais o seu valor em diversos setores. Com a sua
capacidade de compreender, gerar e auxiliar na tomada de decisões, o ChatGPT surge como
uma ferramenta notável que continua a redefinir a forma como aproveitamos o poder da IA para
soluções do mundo real no cenário dinâmico de hoje.
206
Índice
A Google Bardo, 84, 85

GPT, 55
Recursos de linguagem empresarial de interface de
decodificação gananciosa/amostragem aleatória, 72
programação de aplicativos (API), modelo de
tratamento de preconceitos/considerações éticas
linguagem grande 130, 118
sobre preconceitos, 73, 75
Inteligência artificial (IA), 2, 16
personalização/feedback do usuário, 74
Claude, 86
processo de ajuste fino, 74
modelos de difusão, 165
Esforços OpenAI, 73
Falcão, 93-95
pesquisa e desenvolvimento, 74
generativo, 2
transparentes, 74
tratamento de devoluções/reembolsos,
B 181 cuidados de saúde/médicos
Representações de codificador bidirecional de informações, 187-189
transformadores (BERT), 16, 29, 51 RH/recrutamento, estrutura em
camadas 198–203, 64, 65

pesquisa/conformidade jurídica, 194–196
limitações, 76
C pesquisa/análise de mercado, 189–191
Bate-papoGPT autoatenção mascarada, 66 janela
vantagens, 75 de saída, 9 assistente
diagrama de arquitetura, 59 pessoal/ferramenta de produtividade, 200–

geração autoregressiva, 72, 73 negócios/ 202 recomendações
atendimento ao cliente, 181 personalizadas, 180 codificações posicionais, 66
Claude 2, 92, 93 pré-treinamento/ajuste fino, 70
criação/marketing de conteúdo, 183–185 aprendizagem/melhoria contínua, 71
Incorporações contextuais, 71 escrita padrões de aprendizagem
criativa/narrativa de histórias, 191, 192 suporte ao de linguagem, 70
cliente, 179 entrada/análise tarefas específicas/interações do usuário,
de dados, 185–187 estrutura do 71 modelo de recompensa, 69
decodificador, 61 educação
e aprendizagem, 194, 195, 205 análise/sentimento Processo de aprendizagem RLHF, 67–

de feedback, 180 70 informações sobre vendas/produtos, 180
207
A. Kulkarni et al., IA generativa aplicada para iniciantes, https://doi.org/10.1007/978-1-4842-9994-4
ÍNDICE
ChatGPT (cont.) Modelos de difusão, 155
Scikit-LLM, 101 aplicações, arquitetura 174–
mecanismo de autoatenção, 63 176, modelagem condicional
desenvolvimento de software/suporte técnico, 183– 162–165, 159
185, 203, 204 detalhes DALL-E 2, 165–168, 172–174 processo
de status/rastreamento, 181 ajuste de decodificação, 164 modelos
fino supervisionado, 68 geração de generativos, 158 modelo de
texto, 6–8 modelos de representação latente, 162, 163
transformador, 60 testes e - Cadeia de Markov, 159
aprendizagem de erros, 68 aplicações estimativa de máxima verossimilhança, 163
versáteis, 205 Meio da jornada, 170–173

Cláudio 2 níveis de ruído, 159
Paisagem do chatbot de IA, 87, 88 IA modelos probabilísticos, 160
constitucional, 90, 91 GPT 3.5, processo reverso, 159
92, 93 filosofia de difusão estável, 168–170, 173 objetivo
design centrado no ser humano, de treinamento, 159 tipos, 160–
88, 89 experiência de IA 162
centrada no ser humano, 89 recursos Boneca 2, 98
principais, 86, 87 Saco
contínuo de palavras (CBOW), 19 Pré-treinamento E

contrastivo de imagem-linguagem (CLIP)
Elementos, 60
DALL-E 2, 165
embeddings, 165
F
processos de codificação, 166 Falcão AI, 93–95
geração de imagens, 166 Arquitetura de redes feed-forward (FFNs),
processamento de texto de entrada, 47 componentes, 47
166 processos de geração de texto para imagem, dimensionalidade, 48
168 processos de interpretação, 50
treinamento, 167 diagramas compartilhamento de
visuais, 167 redes neurais convolucionais (CNNs), 163 parâmetros, 48 codificação
posicional, incorporações de 48 a 50
palavras, 47
D
Aprendizado profundo, 2, 15
G
rede natural, 16 Unidade recorrente fechada (GRU), 23, 24
Modelos probabilísticos de difusão de eliminação de ruído Redes adversárias generativas (GANs), 155, 157, 158
(DDPM), 160
208
ÍNDICE
Tecnologia intermediária, 170-172 Claude,

Modelos generativos de IA conjunto de
Modelos da Antrópico, 10 dados 86, 80 desvantagens, 84
arquitetura/design, 12 geração Boneca 2, 98
de áudio, 5 Falcão AI, 93-95
Saída ChatGPT, 8 LLaMa 2, rede neural
componentes, 3 95–98, mecanismo de
criação de conteúdo, 11 autoatenção 81, fusão de texto/código 81
players/modelos atuais, 9, 10 atendimento

ao cliente, 12 conjunto de
DeepMind, 9 dados, 82 aprendizagem auto-

definição, 2 supervisionada, 83 arquitetura de transformador, 79, 80
design/criatividade, 11
educação/treinamento, 12
entretenimento/mídia, 11 ambientes H, eu, J, K
de jogo, 12 saúde/medicina, 12 Modelo oculto de Markov (HMM), 21
criador de imagem, 5, 6 geração
de imagem, tradução de
eu
4 idiomas, 12 imagem
gerada por máquina, 1 marketing/ Modelos de linguagem, 15
publicidade, 11 estratégia de conceitos, 33
monitoramento, 136–139 proprietário, evolução, 15, 16
139, 140 geração de texto, 4, 6–8 marcos/avanços principais, 15 modelos de
geração de vídeo, 5 linguagem tradicional, 33
Operações de modelo de linguagem grande
(LLMOps),
Transformador generativo pré-treinado desafios 146, 147 fluxo de
(GPT), 16, 29, 55 trabalho abrangente, 131 recursos
agentes conversacionais, 55 computacionais, 133 preocupações

evolução, 56, 57 éticas, 133 métricas de
história, 56 avaliação, 141–143 ajuste fino, 133
arquitetura de transformador, 57–59 alucinações, 133
Vetores globais para representação de palavras interpretabilidade/
(Luva), 20 explicabilidade, 133 latência/tempo de inferência,
Vantagens do 133 playground de seleção de modelo,
Google Bard, 141 monitoramento de modelos generativos

arquitetura 83, 80, 81 de IA, 136–139
Bate-papoGPT, 84, 85
209
ÍNDICE
Operações de modelo de linguagem grande fases, 120

(LLMOps) (cont.) construção/recuperação
Vantagens OpenAI API/ imediata, 123–125
Python, 153 criação modelos de linguagem, 33
de aplicativos atraentes, LLaMa 2, 95–98
148 ambiente, 149 API generalizada privada, 118, 119
interações, 152, 153 Sklearn, 101
LangChain, 150 bibliotecas, fontes de dados de
149 significado, 148 pilha de tecnologia,
dados PDF, 150 129 recursos de linguagem
pré-requisitos, empresarial, 130
148 processos de Gen AI/testbed, 128, 129
teste, 149 modelos de aproveitando serviços de incorporação, 130
código aberto, 140 serviços de processamento,
operações, 131, 132 plataforma, 129 bancos de dados
134 modelos de IA vetoriais, 130 aprendizagem de
generativos transferência, 127, 128
proprietários, 139, 140 componentes de transformação, 117 transformador, 34
tecnologia, Autoencoders de modelo de difusão
135 validação de saída LLM, 144, latente (LDM), 169
145 fluxo de trabalho, 132 modelos de benefícios/significância, 170
linguagem grande camada de atenção cruzada,
(LLMs), 29, 30, 101 capacidades, 117 Claude 2, 87, 92 169 componentes/conceitos principais,
Falcon AI, 93 –95 169 difusão estável, 168
ajuste fino, 126–128 treinamento e otimização, 169
Google Bard, 79 LLaMa 2, 95–98
modelos GPT-4 e Bard, Memória de longo e curto prazo (LSTM), arquitetura
84 respostas de de transformador 15, 23, 35
modelo de ancoragem de
aprendizagem em
contexto, 123 arquitetura de injeção de
M
contexto, 120, 121 dados contextuais, Erro quadrático médio (MSE), 165
119 pré- Mecanismos de atenção
processamento de dados/ tecnológica no meio da jornada,
172 benefícios/aplicações, 172
incorporação, 120–123 GANs condicionais (cGANs), 171
diversas opções de inferência, 125 aumento/pré-processamento de dados, 172
LangChain, 124 GANs, 170
210
ÍNDICE
funções de perda/otimização, 171 síntese arquitetura do transformador, 35

de texto para imagem, 171 processo Aprendizagem por reforço com humanos
de treinamento, 171 feedback (RLHF), 59, 67–70, 96, 97
NÃO S
Processamento de linguagem natural (PNL), 2, 13, 33 Scikit-LLM
ChatGPT, 55, 60
benefícios, 116
definição, 16
recursos, 101, 102
conceitos fundamentais de representação/ instalação, 102
incorporação de linguagem, 19
Chave de API OpenAI,
Luva, 20
resumo 103, 114, análise de
Word2Vec, 19
texto 115, vetorização
modelos de redes neurais
de texto 116, 113, 114
aplicações, 22
Classificador ZeroShotGPT, 103–112
diagramas de classes, Modelos de difusão baseados em pontuação
22 estruturas computacionais, 21
(SBM), 161
vetores de contexto,
Mecanismo de atenção de modelos sequência a
25 arquitetura codificador-decodificador, 25
sequência (Seq2Seq), 27
Redes GRU, 24
desafios, 27 vetor
grandes modelos de linguagem, 29, 30 de contexto, 26
Redes LSTM, 23, 24 redes
decodificadores,
neurais recorrentes, 22, 23
26 definições,
Modelos Seq2Seq, arquitetura
25
de transformador 25–27, 27, 28 n-
codificadores, 26 processos de treinamento, 27
gramas, modelo
Equação Diferencial Estocástica (SDE), 161
probabilístico 17–21, tokenização
20, 21, arquitetura
de transformador 17, 34 T, você
Instituto de Inovação Tecnológica (TII), 93

P, Q Transformador de transferência de texto para texto (T5), 29
Otimização de política proximal (PPO), 69, 96 Arquitetura do transformador
vantagens, 51
arquitetura, 35
R função de atenção
Redes neurais recorrentes (RNNs), 15, 21–23, concatenação/projeção linear, 45 definição,
25 redes 39 produto
feed-forward, 48 escalar/escala, 42
211
ÍNDICE
Arquitetura do transformador (cont.) camadas modelos de linguagem, 15
codificador-decodificador, 46 limitações, 52
projeções de entrada/lineares, 44 LLaMa 2, 96
entradas/matrizes, 42 modelos de redes neurais, 27, 28 FFNs
mascaramentos, posicionais, 47–50
47 formulação/eficiência de matriz, 43
flexibilidade de modelo, 45
estrutura de múltiplos cabeçotes, 44–
V, W, X, Y
Autoencoders variacionais (VAEs), 155–157
47 cabeçotes múltiplos,
45 pontos em escala -estrutura de
atenção do
produto, 41 produtos escalares por cabeça,

Z
45 ZeroShotGPTClassificador
pontuações, 40 camadas de modelo clf, conjunto
autoatenção, 46 funções de dados 108,
softmax, 47 funções/pesos softmax, 42 modelo de avaliação 104,
soma ponderada, 41 109 recursos,
pesos, 40 implementação 103, 111, 112
autorregressão, 39 bibliotecas, 103
ChatGPT, componente texto multirrótulo zero-shot
57–59, 34 estrutura classificação, 111
decodificador-codificador, 38, 39 estrutura Modelo OpenAI, 108
codificador-decodificador, 37 modelos de conjuntos de dados
IA generativos, 4 Google Bard, rotulados pré-existentes,
80 motivações 109–111 processo de
principais, 35 treinamento, 112 dados de treinamento/teste, 105–107
212

Applied Generative Ai For Beginners-1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Applied Generative Ai For Beginners-1

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

IA generativa aplicada para

IA generativa aplicada para iniciantes: conhecimento prático sobre modelos de difusão,

Akshay Kulkarni Anoosh Kulkarni

Adarsha Shivananda Dilip Gudivada

ISBN-13 (pbk): 978-1-4842-9993-7 https:// ISBN-13 (eletrônico): 978-1-4842-9994-4

Copyright © 2023 por Akshay Kulkarni, Adarsha Shivananda, Anoosh Kulkarni,

Diretor administrativo, Apress Media LLC: Welmoed Spahr

Capa desenhada por eStudioCalamar

Imagem da capa desenhada por Scott Webb no unsplash

O papel neste produto é reciclável

Para nossas famílias

Sobre o Revisor Técnico ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ xiii

Introduçãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ

Capítulo 1: Introdução à IA Gerativa ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 1

Então, o que é IA generativa? ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ 2

Componentes da IAÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 3

Domínios de IA Gerativaÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 4

Geração de textoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 4

Geração de imagem ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 4

Geração de Áudio ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 5

Geração de Vídeo ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 5

IA generativa: jogadores atuais e seus modelosÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 9

Aplicações Gerativas de IAÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 11

Conclusão ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 13

Capítulo 2: Evolução de Redes Neurais para Grandes Modelos de Linguagem ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 15

Processamento de Linguagem Natural ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 16

Tokenização ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 17

N-gramas ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 17

Representação e incorporações de linguagemÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 19

Modelos Probabilísticosÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 20

Modelos de linguagem baseados em redes neuraisÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 21

Redes Neurais Recorrentes (RNNs)ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 22

Memória Longa de Curto Prazo (LSTM) ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 23

Unidade Recorrente Fechada (GRU) ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿ 24

Redes Codificador-Decodificadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 25

Transformadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 27

Modelos de Grandes Linguagens (LLMs)ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿ 29

Conclusão ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 30

Capítulo 3: LLMs e Transformadoresÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 33

O poder dos modelos de linguagemÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 33

Arquitetura do Transformador ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ 34

Motivação para o Transformadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿ 35

Arquiteturaÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 35

Arquitetura do codificador-decodificadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 36

Atençãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 39

Redes feed-forward posicionadas ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 47

Vantagens e limitações da arquitetura do transformadorÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ 51

Conclusão ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 53

Capítulo 4: A arquitetura ChatGPT: uma exploração aprofundada do OpenAI

A evolução dos modelos GPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ 56

A arquitetura do transformador: uma recapitulaçãoÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 57

Arquitetura do ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿ 59

Pré-treinamento e ajuste fino no ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 70

Pré-treinamento: aprendendo padrões de linguagemÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 70

Ajuste Fino: Adaptação a Tarefas Específicasÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 71

Aprendizagem Contínua e Melhoria Iterativa ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 71

Incorporações contextuais no ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 71

Geração de resposta no ChatGPTÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 72

Lidando com preconceitos e considerações éticasÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 73

Lidando com preconceitos em modelos de linguagemÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 73

Os esforços da OpenAI para mitigar preconceitos ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ 73

Pontos Fortes e Limitaçõesÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿ 75