TEST

TEST
Funcionamento básico de LLMs

Por dentro do motor dos LLMs
Vamos agora desvendar os segredos por trás desses modelos. Como eles
conseguem processar e gerar linguagem tão bem?
Tudo começa quando o LLM "lê" um texto. Ele quebra o texto em pequenos
pedaços chamados tokens. Cada token pode ser uma palavra, parte de palavra
ou símbolo. O LLM transforma esses tokens em números que seus "neurônios"
conseguem entender.
Depois, ele faz previsões estatísticas para determinar qual será o próximo
token, levando em conta todos os tokens anteriores. É assim que ele gera novo
texto ou completa nosso prompt, token por token!
Agora que sabemos o básico de como os LLMs funcionam, é hora de aprender
a controlar essas poderosas máquinas de linguagem para obter os resultados
que queremos.
Podemos usar certas configurações do LLM para controlar vários aspectos do

modelo, como o quão 'aleatório' ele é. Essas configurações podem ser
ajustadas para produzir resultados mais criativos, diversificados e
interessantes. As configurações de temperatura, P superior e comprimento
máximo são mais importantes, mas descrevemos todas as configurações que o
OpenAI Playground permite modificar.
Temperatura
A temperatura regula a imprevisibilidade da saída de um modelo de

linguagem. Com configurações de temperatura mais altas, os resultados
tornam-se mais criativos e menos previsíveis, pois amplificam a probabilidade
TEST 1
de tokens menos prováveis e, ao mesmo tempo, reduzem a probabilidade de
tokens mais prováveis. Por outro lado, temperaturas mais baixas produzem
resultados mais conservadores e previsíveis. O exemplo a seguir ilustra essas
diferenças na saída:
TEST 2
Top P
Top P é uma configuração em modelos de linguagem que ajuda a gerenciar a

aleatoriedade de sua saída. Funciona estabelecendo um limite de probabilidade
e, em seguida, selecionando tokens cuja probabilidade combinada ultrapasse
esse limite.
Por exemplo, vamos considerar um exemplo em que o modelo prevê a próxima
palavra em `The cat climbed up the ___`. As cinco principais palavras que
podem ser consideradas poderiam ser `tree`(probabilidade
0,5), `roof`(probabilidade 0,25), `wall`(probabilidade
0,15), `window`(probabilidade 0,07) e `carpet`, com probabilidade de 0,03.
Se definirmos Top P como `.90`, a IA considerará apenas os tokens que somam
cumulativamente pelo menos ~90%. No nosso caso:
Adicionando `tree`-> total até agora é `50%`.
Então adicionando `roof`-> total torna-se `75%`.
Em seguida vem `wall`, e agora nossa soma chega a `90%`.
Portanto, para gerar resultados, a IA escolherá aleatoriamente uma entre essas

três opções ( `tree`,, `roof`e `wall`), pois elas representam cerca de 90 por
cento de todas as probabilidades. Este método pode produzir resultados mais
diversos do que os métodos tradicionais que amostram todo o vocabulário
indiscriminadamente porque restringe as escolhas com base em
probabilidades cumulativas, em vez de tokens individuais.
Comprimento Máximo
TEST 3
O comprimento máximo é o número total de tokens que a IA pode gerar. Esta
configuração é útil porque permite aos usuários gerenciar a duração da
resposta do modelo, evitando respostas excessivamente longas ou
irrelevantes. Também ajuda a controlar os custos, pois o comprimento é
compartilhado entre a entrada na caixa Playground e a resposta gerada.
Penalidade de Frequência
A penalidade de frequência é uma configuração que desencoraja a repetição

no texto gerado, penalizando os tokens proporcionalmente à frequência com
que aparecem. Quanto mais frequentemente um token for usado no texto,
menor será a probabilidade de a IA usá-lo novamente.
Penalidade de Presença
A penalidade de presença é semelhante à penalidade de frequência, mas

penaliza categoricamente os tokens com base na ocorrência ou não, em vez
de proporcionalmente.
TEST 4
Concluindo, dominar configurações como temperatura, top p, comprimento
máximo e outras são essenciais ao trabalhar com modelos de linguagem. Esses
parâmetros permitem o controle preciso da saída do modelo para atender a
tarefas ou aplicações específicas. Eles gerenciam aspectos como
aleatoriedade nas respostas, duração da resposta e frequência de repetição,
entre outras coisas – tudo contribuindo para melhorar sua interação com a IA.
TEST 5

TEST

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TEST

Enviado por

Direitos autorais:

Formatos disponíveis

TEST

Funcionamento básico de LLMs

Podemos usar certas configurações do LLM para controlar vários aspectos do

A temperatura regula a imprevisibilidade da saída de um modelo de

Top P é uma configuração em modelos de linguagem que ajuda a gerenciar a

Adicionando `tree`-> total até agora é `50%`.

Então adicionando `roof`-> total torna-se `75%`.

Em seguida vem `wall`, e agora nossa soma chega a `90%`.

Portanto, para gerar resultados, a IA escolherá aleatoriamente uma entre essas

A penalidade de frequência é uma configuração que desencoraja a repetição

A penalidade de presença é semelhante à penalidade de frequência, mas

Você também pode gostar