Você está na página 1de 88

Machine Translated by Google

(CC-BY) shambibble / @shambibble /shambibble.com

Observação: o que se segue é um documento não afiliado baseado em fãs para a versão 5.2 do Midjourney do outono de
2023 (exceto o adendo, do inverno de 2024). A solicitação é altamente indeterminada e, embora os exemplos mostrados aqui
(exceto o capítulo de variação) sejam de grades iniciais, considere todas as dicas e truques como “empurrões” que melhoram
suas chances de conseguir o que deseja, em vez de soluções infalíveis. Espere mexer, relançar e remixar sempre que buscar
um resultado específico. Por favor, apoie a documentação oficial.

VISÃO GERAL DE ALTO NÍVEL 2

ÿÿ AJUSTE DE PROMPT ÿÿ ÿÿ 8

PARÂMETROS SIMPLES ÿÿ 20

MULTI-PROMPTS 46

PROMOÇÕES DE IMAGEM 56

Vs, Zs e Ps 72

ÿÿ ADENDO HASTY MJ 6 ÿÿ 85

Não sou programador nem artista, nem tenho acesso a nenhuma informação privilegiada especial, apenas um cara que
orienta muito e, portanto, este manual não deve ser lido por ninguém ÿ
Machine Translated by Google

VISÃO GERAL DE ALTO NÍVEL

Seria uma analogia grosseira, mas não imprecisa, dizer que a IA do Midjourney é como um cérebro com duas
metades: o difusor do cérebro direito e ligeiramente chapado, que treina como moldar assuntos coerentes e
criativos a partir de ruídos aleatórios, e o difusor esquerdo. guia de clipes inteligente , um crítico semântico que
diz ao difusor como ele está se saindo com base em uma matriz gigantesca de pares de texto para imagem.

As IAs difusoras já existem há um minuto; as primeiras versões de MJ compartilham linhagem com o agora
venerável Disco Diffusion. Para simplificar as coisas, os difusores treinam para captar sinais de ruído com um
processo de duas etapas que você pode imitar com dois filtros do Photoshop: adicionar ruído a uma imagem, para
que a IA continue a reconhecê-la mesmo sob um monte de estático e de eliminação de ruído, ou treinar a IA para
remover o ruído estático e reconstruir a imagem original.

Pense nisso como mostrar à IA vários milhões de nuvens que você disse que têm o formato de certas coisas e
depois pedir que ela lhe diga o que ela acha que uma nuvem inteiramente nova representa. Se você gosta de
matemática, recomendo esta apresentação da nVidia, que tem muitas letras gregas e símbolos de divisão longos
para seus olhos brilharem. Eu não sou muito fã de equações diferenciais, mas esse processo pode ser intuído
apenas observando os prompts de renderização de MJ que você gera; você verá logo no início que a maioria
deles começa como manchas borradas aleatórias de pixels e, em seguida, lentamente se fundem em algo
reconhecível.

Uma ilustração de ruído/eliminação de ruído da apresentação do link acima.

Essa difusão é a razão pela qual todo MJ /imagine começa com um valor inicial. O conceito de valor inicial deve
ser familiar se você já jogou um roguelike, ou Minecraft, ou qualquer jogo com geração processual pseudo-
aleatória: cada valor inicial é uma sequência de números usada pelo mecanismo de jogo para gerar um layout de
nível específico ( ou distribuição inimiga ou qualquer outra coisa que esteja sendo aleatória). Quando a semente
muda (geralmente quando você reinicia o jogo), o nível muda
também.
Machine Translated by Google

No MJ, o valor inicial é extrapolado matematicamente em um grande e velho quadrado de ruído aleatório para que o difusor

se transforme em algo coerente. Cada vez que você insere um prompt ou rola novamente um, você também está rolando

novamente um valor inicial. Isso não é visível durante o uso geral, mas se você reagir a uma grade com o emoji, poderá

obter a semente #### e repetir seu prompt com -

-semente #### no final. Executar exatamente o mesmo prompt com a mesma semente duas vezes obterá um resultado

idêntico. Mas...

um zigurate solitário surge das areias varridas pelo vento da Arábia - semente 1234 um zigurate solitário surge das areias árabes varridas pelo vento - semente 1234

...como você pode ver acima, mesmo o menor ruído pode alterar visivelmente os resultados. Um humano leria essas duas

instruções de forma idêntica, mas para MJ, “areias da Arábia” versus “areias da Arábia” foi suficiente para fazer o difusor

ver o resultado de forma muito diferente em termos de estilo, composição, formato da pirâmide, etc. é claro que os números

iniciais adjacentes não correspondem realmente entre si, devido ao quão pseudo-aleatória é a função de ruído; --seed 997

não será especialmente próximo de --seed 998.

Você realmente não precisa pensar demais nas sementes ou mesmo especificá-las na maioria das vezes; só é necessário

nos casos em que queremos fazer comparações A/B e ter (mais) certeza de que as diferenças não são aleatórias. Escolha

qualquer número (melhor ainda, escolha vários com antecedência, às vezes as sementes dão sorte), o importante é mantê-

lo constante para qualquer teste que você esteja realizando no momento.

Os difusores por si só não são especialmente bons na direção; eles podem detectar padrões no ruído, mas à medida que

o ruído começa a sobrecarregar a imagem, os resultados da remoção de ruído parecem cada vez menos com as imagens

originais coerentes com as quais começamos, então o ruído totalmente aleatório pode levar a imagens totalmente aleatórias.
Machine Translated by Google

resultados. O difusor precisa de um guia para ajudá-lo, e é aí que entra o guia CLIP (abreviação de pré-treinamento
de imagem-linguagem contrastiva).

Como a sigla sugere, o CLIP pode treinar em qualquer grande conjunto de pares texto-imagem. Tanto por motivos
de tamanho de arquivo quanto de direitos autorais, os conjuntos de dados públicos não contêm nenhum arquivo
de imagem; em vez disso, são principalmente pares de links que levam a essas imagens na Internet, combinados
com descrições dessas imagens em inglês. Banco de imagens, fotografias com legendas, tags de gênero/estilo,
metadados de artistas, todas essas coisas podem ser usadas para treinar o CLIP. Por si só, o CLIP funciona como
uma mini versão da pesquisa de imagens do Google que olha para qualquer lugar na Internet onde as imagens
são consistentemente combinadas com descrições de texto (em inglês). (Encontrar imagens relevantes da web a
partir de pesquisas de texto era o objetivo original do CLIP).

Eventualmente, alguém (Katherine Crowson) teve a brilhante ideia de usar o CLIP como uma combinação de
modelo e crítico de arte para gerar imagens inteiramente novas, em vez de recuperá-las da pesquisa. Isso foi
originalmente feito como uma combinação com GANs (redes adversárias generativas, como visto em
thispersondoesnotexist.com) mas logo foi aplicado também a difusores, que se tornaram mais populares, e a maior
parte das IAs de imagem atuais são descendentes da “difusão guiada por CLIP”.

Um arquivo pesquisável do LAION-400M, um dos conjuntos de dados de imagem de texto usados para treinar o CLIP original.

É importante ter em mente que há muito pouca curadoria manual desses conjuntos de dados de texto para imagem
usados para treinar o CLIP. As imagens entram e saem da Internet o tempo todo, as descrições são alteradas e,
para começar, sempre podem ser imprecisas. Os bancos de dados dependem principalmente do tamanho para
superar isso, mas esse tamanho também significa que a maior parte da curadoria também deve ser feita com IA.
As “pontuações estéticas” nestes conjuntos de dados são em grande parte atribuídas por IAs que extrapolam a
partir de um conjunto muito menor de classificações humanas reais. O facto de o CLIP estar, em última análise, a formar
Machine Translated by Google

bilhões de descrições humanas aleatórias têm algumas implicações para o estímulo que pode valer a
pena considerar.

Por exemplo, um dos erros mais comuns para iniciantes em MJ é adicionar a palavra “realista” ou mesmo
“fotorrealista” a uma solicitação de algo que se parece com uma fotografia. Mas “fotorrealista” é um estilo
de pintura, e incluí-lo na verdade afastará o guia do clipe das fotografias. Os fotógrafos não descrevem
seu trabalho como “fotorrealista”, mas sim com coisas como marcas de câmeras ou distâncias focais, e
esses devem ser os tipos de coisas que você adiciona ao seu prompt se quiser algo com mais profundidade
fotográfica.

Mulher mexicana de 20 anos em um jardim, retrato, fotorrealista Mulher mexicana de 20 anos em um jardim, retrato, fotografia canon 35mm

--semente 1821 --semente 1821

Mais seriamente, o facto de o texto ser, em última análise, extraído da Internet, em inglês, significa que
irá reflectir praticamente qualquer preconceito social suficientemente perceptível para aparecer nesse
texto. Existem bilhões de pessoas asiáticas e africanas neste planeta, mas como a maioria deles não
marca fotos no Flickr em inglês, “homem” quase sempre lhe dará um homem de aparência anglo-
americana quando você não especificar de outra forma uma etnia ou nacionalidade.

E as exceções podem ser ainda mais embaraçosas; é de rigeur que todos os artigos de mídia sobre IA
artística observem que “enfermeira” tende a produzir mulheres, ou “terrorista” tende a produzir caras
morenos de aparência árabe (novamente, pense nos tipos de preconceito que você obteria ao pesquisar
um termo sobre Imagens do Google; CLIP provavelmente refletirá isso).
Machine Translated by Google

Outra consideração é que a IA se sai mal com conceitos subespecificados e com ampla variedade visual.
Se você simplesmente solicitar um “pássaro” em MJ, o CLIP ficará preso tentando criar uma gestalt
sensata a partir de imagens de águias, tordos, papagaios, corvos, flamingos e pinguins (e em todos os
diferentes níveis de zoom, ângulos, empoleirados ou voando). , pavões machos ou fêmeas, etc.) O
mesmo vale para conceitos como “uniforme” ou “carro”. Não são receitas para resultados realistas sem muitos detalhes.

um carro um pontiac firebird trans-am branco 1981


--semente 303 --semente 303

Observe como o estilo mudou de artístico para fotográfico sem nenhum estímulo explícito além de todos
aqueles detalhes extras do carro da vida real, simplesmente porque incluir aqueles no prompt o faz pensar
em fotos da vida real desses carros que viu enquanto olhava no Craigslist ou sites de concessionárias.

O que você também pode não perceber a princípio é que esse princípio de especificidade também se
aplica às pessoas. Você está tentando alertar alguém muito famoso, que deveria estar no conjunto de
dados um milhão de vezes, mas acaba parecendo versões de si mesmo no Wish.com? Bem, pense em
como eles são representados no banco de dados. Bob Marley provavelmente vai precisar de uma dica
fotográfica para superar toda a arte do graffiti/stoner. Arnold Schwarzenegger é famoso há tanto tempo
que você precisará especificar um ano ou uma idade ou fará uma média estranha de seu rosto velho e
pele jovem. Alguém famoso há décadas E caricaturou muito? Eles provavelmente precisarão de ambos.
Machine Translated by Google

Richard Nixon fazendo gesto de sinal de paz --seed Richard Nixon, 61 anos, fazendo gesto de sinal de paz, fotografia de arquivo de 1974,
1974 registros da Casa Branca - semente 1974

Uma grande parte da engenharia imediata está apenas dando um passo atrás e tentando pensar
menos como você mesmo e mais como uma máquina boba que nunca habitou o mundo físico
tridimensional, não sabe nada sobre história ou ciência e não tem qualquer compreensão da realidade.
além das palavras usadas para descrevê-los em imagens. Então, antes de sairmos correndo e
começarmos a inserir parâmetros e multi-prompts e Deus sabe o que mais, vamos parar um minuto
para sentar e falar sobre prompts em “inglês simples”, que podem ser úteis não apenas com MJ, mas
também com garfos DALLE, Firefly, StableDiffusion , e qualquer outro serviço de texto para IA que
possa aparecer no futuro (lançamento Imagen seus covardes).
Machine Translated by Google

AJUSTE PRONTO

As redes neurais são estranhas. As associações que eles acabam fazendo são muitas vezes opacas até mesmo para os programadores, e

mesmo com truques como manter o valor inicial constante, muitas dessas coisas são mais arte do que ciência. É uma caixa preta brilhante

que absolutamente não lhe dirá as regras; são apenas coisas que temos que adivinhar observando a entrada e a saída. Por favor, leve tudo

nesta seção com um pouco de sal de baixa confiança.

Na verdade, você não precisa fazer isso na maioria das vezes. Por favor.

Bem, exceto por alguns confirmados pelo desenvolvedor coisas: letras maiúsculas e pontuação. Como
muitos dos pares texto-imagem usados para treinar o guia de clipe não tinham letras maiúsculas
consistentes, isso foi descartado. Frases minúsculas, caps lock e normais são analisadas da mesma
maneira. Para pontuação, existem apenas três tipos de pontuação que oficialmente importam no sentido
de que alteram a forma como MJ analisa seu prompt: --, dois pontos duplos :: e colchetes
travessões duplos { }. Eles representam parâmetros, quebras de vários prompts e conjuntos de
permutações, respectivamente, que serão discutidos mais tarde, portanto, deixe-os de lado por enquanto.
Qualquer outra pontuação é tratada como o resto do seu prompt.

A unidade fundamental de um prompt é um “token”, que equivale a uma palavra, mas não exatamente.
Os tokens são determinados alimentando a IA com muito texto e permitindo que ela descubra quais são
as strings mais comuns. As palavras mais comuns recebem seu próprio token. Palavras incomuns são
divididas em vários subtokens. Um verbo limítrofe comum pode aparecer com bastante frequência
Machine Translated by Google

para que seu radical seja tokenizado, mas tenha terminações como “-ing” ou “-ed” divididas em tokens separados.
(Este é um recurso, não um bug, ajuda a IA a aprender inglês e permite contextualizar novas palavras da mesma
forma que fazemos, por semelhanças de raiz).

Uma regra rígida de prompt é que o CLIP atinge no máximo 77 tokens. Se você quiser chegar ao limite, use este
widget NovelAI e selecione CLIP no menu suspenso, mas se você quiser apenas uma regra prática fácil, trate o
máximo como 50 palavras (para compensar palavras longas/incomuns que recebem tokens divididos). Esse limite
é um dos muitos motivos pelos quais pode ser uma má ideia recrutar o ChatGPT para escrever prompts para
você.

Retrato de um mineiro de carvão britânico, com cerca de 45 anos, uma expressão cansada
Mineiro de carvão britânico, 45 anos, expressão cansada
no rosto sujo e cabelos grisalhos curtos e desgrenhados. O fundo da imagem é um dia escuro
de inverno. A câmera utilizada é uma Nikon D780 com lente de 50mm. A composição está centrada com cabelo curto e grisalho, fundo diurno de inverno, plano médio,
no rosto do mineiro. A perspectiva é ligeiramente inclinada de baixo para capturar o [77 tokens, inclinado de baixo para cima, estilo nítido e corajoso, iluminação
tudo depois disso foi ignorado] o orgulho e a força do mineiro. A iluminação é baixa e quente,
suave, capturando orgulho e dignidade, desfoque bokeh, Nikon
com o brilho amarelo do fósforo iluminando o rosto do mineiro. A profundidade de campo é rasa,
com o rosto e a parte superior do corpo do mineiro em foco e o fundo desfocado. A qualidade da
foto é alta, com detalhes nítidos e cores ricas. Esta imagem captura a aparência robusta e o trabalho fotografia D780
árduo de um mineiro britânico, com um sentimento de orgulho e dignidade. --semente 1972

As definições da câmara são cuidadosamente escolhidas para enfatizar as características


expressivas do motivo e transmitir a profundidade emocional da cena: uma abertura de f/2 para
criar uma profundidade de campo reduzida, isolando o motivo de um fundo suave e silencioso; um
ISO de 100 para qualidade de imagem ideal e ruído mínimo; e uma velocidade do obturador de
1/200 seg. para capturar todas as nuances do rosto do sujeito. A composição é habilmente
iluminada por uma combinação de luz natural e uma soft box, que juntas esculpem o rosto
do homem, enfatizando o visual robusto. Os tons quentes e dourados da luz
aumentam ainda mais a sensação de orgulho e contentamento que irradia do sujeito, criando um
retrato visualmente cativante e profundamente comovente que ressoa nos espectadores em um
nível profundo. O fundo é mantido simples e discreto, permitindo que o foco do espectador
permaneça no assunto e na sua expressão emotiva. As cores suaves e as texturas suaves
do fundo complementam as características do modelo, contribuindo ainda mais para a harmonia
geral da composição. --semente 1972
Machine Translated by Google

Observe também que todo o ruído no primeiro prompt abafou detalhes visuais importantes que estavam
antes do corte, como o ângulo baixo e a configuração suave durante o dia. Os modelos de linguagem não
estão familiarizados com MJ, que foi lançado após as janelas de treinamento, e o pensamento “visual” não
é natural para eles. Se você apenas pedir um aviso “para Midjourney”, eles tendem a presumir que
funciona como eles, escrevendo tijolos sólidos de prosa “instrucional” que queimam o limite simbólico de
palavreado desnecessário como “A imagem deveria ser X”, quando MJ só precisa ouvir “X”.

Você pode gostar mais da imagem à esquerda; afinal, ainda é uma imagem legal . Mas nesta fase do jogo
de IA, a medida de um prompt não é se ele produz uma imagem legal. MJ é tão bom em difundir o estilo
do ruído que pressionamentos de tecla e comandos de caos também podem produzir imagens legais.
A solicitação hábil é se ela produz a imagem legal que você especificou. Para esse objetivo, é melhor
manter suas descrições concisas e objetivas.

Uma outra peculiaridade do esquema de token CLIP é que a pontuação é sempre cortada em ambos os
lados. Muitas pessoas confiam em coisas como usar hífens ou parênteses para vincular conceitos ou usar
pontos de exclamação para dar ênfase, mas há poucas provas sistemáticas de que essas coisas
funcionam. A menos que alguém tenha uma prova A/B de múltiplos pares --seed, pode-se presumir
provisoriamente que qualquer ruído não natural entre conceitos tende a separá-los em vez de ligá-los. Mas
se uma palavra vier naturalmente com um travessão, como “close-up”, mantenha a pontuação, pois isso
ajudará MJ a reconhecer e aplicar o padrão.

um homem comendo frango em uma rua movimentada uma galinha comedora de gente em uma rua movimentada
--semente 369 --semente 369

Saímos agora do reino dos factos objectivamente verificáveis e entramos na ponta dos pés em
especulações bem fundamentadas. Depois que o CLIP converte seu prompt em uma sequência de tokens, ele inicia
Machine Translated by Google

prestando “atenção” a eles. O que “atenção” significa (simplificado demais) é que algumas combinações de
tokens, como “homem” mais “traço” mais “comer” acima, ativam associações na rede neural para conceituar
ainda mais frases comuns. É por isso que uma frase como “#-
ano de idade”, apesar de consistir em mais de 5 tokens separados, produz de forma confiável os padrões de
detalhes físicos que associamos à idade.

Essa atenção treinada também é combinada com um valor de atenção padrão mais fraco para proximidade
simples (é por isso que você pode misturar praticamente qualquer bobagem com os tokens “____punk” ou
“____core” para obter um sabor extra) e o mapa de atenção invisível resultante é holístico de MJ. “ideia” centenária
do seu prompt.

Alguns tokens não significam muito. Artigos como “a” ou “the” têm efeitos leves e aleatórios nas solicitações, com
algumas exceções importantes em que o significado muda totalmente:

cura --seed 1982 a cura - semente 1982

Mas, na maioria das vezes, eles são tratados como ruído, o suficiente para às vezes fazer a semente formar uma
composição diferente, mas sem uma diferença sistemática e discernível. Em geral, solicitar como uma
reivindicação de patente e tentar referir-se a algo que você introduziu com “o” raramente funciona. Quando
possível, você deve tentar colocar todos os detalhes sobre um elemento em uma sequência consecutiva de
palavras, porque referir-se a ele em pontos separados no prompt simplesmente irá confundi-lo.
Machine Translated by Google

uma máscara está pendurada na parede de estuque, a máscara é máscara de madeira ornamentada pendurada na parede de estuque - semente 10001
esculpida em madeira - semente 10001

Aqui, a tentativa de referência anterior esmaga tudo o que está entre ela, fazendo MJ esquecer o
“estuque” e esculpir tudo na imagem em madeira. Mas no segundo prompt, todos os detalhes da
máscara vêm antes dela, e a máscara em si é claramente separada da parede “pendurada”, dando-
nos a atribuição de material desejada.

Duas vítimas mais frequentes dos mecanismos de atenção são as preposições e conjunções curtas
de uma palavra. Se as únicas palavras que você usa para indicar um relacionamento forem “dentro”
ou “ligado”, MJ terá dificuldade em distinguir entre os dois.

bassê com suéter --seed 2222 bassê com um suéter --seed 2222
Machine Translated by Google

Conclusão provisória: Ao tentar relacionar aspectos de uma dica, vale a pena usar preposições em vez de
conjunções, e compensa ainda mais usar verbos em vez de preposições, como “vestir X” em vez de “em X” ou
“bordado em X” ” em vez de “no X”. Você deseja evitar vincular conceitos com várias palavras com ruído
(especialmente voz passiva).

A ordem das palavras também tem um efeito significativo nos prompts. MJ, como qualquer IA que treina em
inglês, tem uma tendência significativa da esquerda para a direita. A primeira coisa em seu prompt será a
influência mais forte na composição resultante e a última coisa será a mais fraca. Isso permite que você trate a
ordem das suas palavras como um sistema informal de ponderação.

paisagem antártica agreste, foto grande angular, pintura digital hiper- cidade futurista movimentada, foto grande angular, pintura digital
realista, rastros de vapor, ambiente cinematográfico, cidade hiper-realista, rastros de vapor, ambiente cinematográfico,
futurista movimentada --semente 90 paisagem antártica agreste - semente 90

Aqui, ao colocar a “crua paisagem antártica” na frente e a “cidade futurista movimentada” no final, garantimos
que o foco central da renderização estivesse na paisagem, com a cidade sendo relegada para a periferia da
cena (e o palavra “agitado” mais ou menos totalmente omitida). Trocá-los restaura pelo menos alguma aparência
de civilização na saída, enquanto a Antártica não é tão dura agora, com água líquida e alguns pedaços de terra
descoberta. Mas alguns tokens são ainda mais fortes que a Antártica; na verdade, algumas ideias são tão
coerentes no banco de dados que dominam o prompt, mesmo que você as coloque bem no final.
Machine Translated by Google

vídeo granulado e pixelado de segurança de Carmen Sandiego se esgueirando vídeo granulado de segurança pixelado de Carmen Sandiego se esgueirando pelo
pelo museu francês à meia-noite, filmagem encontrada em 240p, roubando obras museu francês à meia-noite, filmagem encontrada em 240p, roubando a Mona Lisa
de arte de valor inestimável --seed 1503 --seed 1503

A imagem mais reproduzida de todos os tempos, uma pintura 2D com perspectiva idêntica? Carmen não tem chance,
MJ rejeita todos os outros conceitos que vieram antes e corre direto para um retrato paródico. Tudo o que as fichas
“carmen sandiego” podem fazer é jogar um fez vermelho. Este exemplo é um pouco fofo, pois o lado esquerdo mostra
que você pode simplesmente substituir “obra de arte de valor inestimável” e obter uma imagem aceitável. Mas as
coisas ficam mais complicadas (literalmente) quando o seu símbolo de garotão faz parte de uma palavra.

bagre, fotografia da natureza bagre siluriformes, fotografia da natureza - semente


--semente 500 500
Machine Translated by Google

“Gato” vai estragar o dia de qualquer um se ele quiser um bagre, uma passarela ou um pouco de grama de taboa. Para

desviar MJ desse foco singular, “subimos um nível” de generalidade: procuramos bagre na Wikipédia e encontramos o nome

científico da classe, depois o colocamos na frente do prompt para tirar MJ de sua rotina. Esta é uma versão do truque

“humanóide”, onde as pessoas descobriram rapidamente que era difícil para Midjourney desenhar homens ou mulheres com

pele fora do padrão, como verde ou roxo, para cenários de ficção científica/fantasia, mesmo com “ pele verde” na frente do

prompt.

No entanto, mudar “mulher” para “mulher humanóide” tornou as coisas muito mais fáceis; adicionando o detalhe “um nível

acima”, MJ pode ser “focado” e sua compreensão da ideia pode ser afrouxada.

Por outro lado, existem alguns conceitos que não são muito coerentes, que podem precisar de ajuda, não importa onde você

os coloque no prompt. É aqui que você abre o Thesaurus de Roget.

Por exemplo, se a “visualização de cima para baixo” não estiver funcionando na frente do seu prompt, ou for tão fraca que

você esteja obtendo apenas visualizações ligeiramente elevadas, você pode carregar com a “visualização de cima para baixo

da forma de planta aérea” para tentar e forçar uma determinada perspectiva. Faz sentido, certo? Se um conceito for fraco,

você deseja ampliar o espaço de referência tanto quanto possível.

Mas o que realmente vai assar o seu macarrão é que esse empilhamento de sinônimos também pode funcionar para melhorar

a resolução de amostragem dos verbos.

arqueiro desenhando um arco e flecha --seed 1415 arqueiro nocking desenho mirando arco e flecha -
semente 1415

Se você não gosta muito de linguagem floreada, também pode apenas enfatizar repetindo palavras, seja juntas (grande

reforço) ou no início e no final do prompt (pequeno reforço). Outro


Machine Translated by Google

Uma boa opção para reforçar coisas, quando aplicável, é usar um emoji (embora eles não sejam tão
poderosos quanto nas versões anteriores do MJ, então usá-los sozinhos não vai te trazer muito).

Para aqueles que sofrem de bloqueio total do prompter, MJ tem um recurso /describe onde retornará
descrições de texto de uma imagem que você forneceu e cuspirá quatro descrições semi-aleatórias que você
pode executar como prompts independentes. Foi confirmado pelos desenvolvedores que este não é o modelo
CLIP completo que retorna essas sugestões. É um modelo estético pequeno e separado cujas descrições
podem ou não ser interpretadas de forma semelhante por MJ. (Suspeito que seja o mesmo modelo de
reconhecimento de imagem que alimenta a seção de recomendação “Explorar Relacionado” no site da galeria.)

Como resultado, executar um dos quatro prompts diretamente conforme entregue geralmente não o deixará
especialmente próximo da imagem original. Veja como aconteceu com uma captura de tela falsa do Ghibli
que fiz a pedido no prompt-craft, ao lado da imagem produzida quando acertei a primeira sugestão.

uma garota usando um omakase está montando um sapo na floresta, correr sozinho
no estilo laranja escuro e ciano claro, pioneiro do cinema de
animação, ricoh ff-9d, g. salgueiro Wilson, hayashida, Angela Barreto,
animais e pessoas – ar 3:2

Veterinários experientes detectarão alguns problemas imediatamente. “No estilo de [duas cores]” é uma
construção comum em /describe que faz muito pouco por MJ. Ter “filme de animação” e um modelo de câmera
(“ricoh ff-9d”) no prompt irá confundir ativamente suas referências.
E, misteriosamente, escritores de quadrinhos (como G. Willow Wilson) aparecem em /descrever, embora
incentivá-los seja inútil, e você terá o rosto deles, ou a média de todos os artistas com quem trabalharam (ou
de Alan Moore, ambos) . Até mesmo os novatos podem notar “garota usando um omakase”, uma marca
registrada lol-random tokensmash (outros incluem “mommys-on-the-phone-core” e “no mikado mp4”) que
parece mais uma piada interna do que qualquer outra coisa.
Machine Translated by Google

Há coisas que ele claramente não faz , como tentar qualquer tipo de marcação por etnia ou tipo de corpo.
Presumivelmente, isso é para evitar constrangimento (esteja avisado que não hesitará em criticar seus amigos
trans), mas não tenho certeza se as pessoas estão publicando/descrevendo em suas fotos e tendo que
adicionar “gordo” ou “negro” porque a “pessoa genérica” O resultado não se parece em nada com eles é uma
melhoria do ponto de vista do humor.

Você deve pensar em /describe principalmente como um assistente de brainstorming, em vez de um gerador
completo de prompts. Acho que a melhor maneira de usá-lo é escolher alguns tokens que eu sei que
funcionarão, ou pelo menos não sei que não funcionarão, de todos os quatro, além de usar a imagem original
como um prompt de imagem (consulte capítulo 5).

A outra ferramenta principal de ajuda imediata é /encurtar, que pretende dizer quais das suas palavras são as
mais importantes, colocando em negrito as importantes e riscando as sem importância. Tal como acontece
com /describe, esta ferramenta é melhor do que nada se você estiver completamente perdido; certamente
melhorará a maioria dos prompts de tijolos chatGPT. Mas se você já está escrevendo seus próprios prompts,
então você deve fazer a análise com cautela.

lineart simples de caminhão pesado de 18 rodas, arte vetorial, livro caminhão simples e resistente de 18 rodas, colorido -
de colorir monocromático em branco semente 18
plano de fundo --semente 18 (primeira sugestão de prompt abreviada)

Se eu escolhesse aqui uma frase que fizesse menos trabalho , provavelmente seria “serviço pesado”, já que
está implícito em “caminhão de 18 rodas”, então é curioso que /shorten tenha visto isso como tão importante.
E você certamente não precisa ser um gênio para prever o que acontecerá quando “livro de colorir
monocromático” for abreviado para “colorir”. Também é altamente inconsistente e
Machine Translated by Google

as importâncias relativas podem mudar completamente com a substituição de um sinônimo por outro, mesmo
que você saiba, por meio de testes separados, que eles têm efeitos semelhantes.

Então, vamos voltar ao quadro geral. Tendo em mente que os prompts são de formato livre, há quatro elementos
que você deve sempre considerar: assunto, plano de fundo, enquadramento e estilo. Por considerá -los, não
quero dizer necessariamente incluí -los. O enquadramento de “close-up extremo” não precisa de um fundo (um
aviso pode fazer com que você diminua o zoom) e o estilo de “pintura abstrata” não precisa de enquadramento
para uma câmera virtual. Basta pensar no que você está fazendo e manter as descrições (e omissões)
harmonizadas em vez de conflitantes.

Como um esqueleto de prompt genérico, o padrão é [assunto] em [plano de fundo], [enquadramento], [estilo]
antes de considerar quaisquer detalhes ou reordenar. MJ é sensível a dicas de estilo e irá captá-las prontamente,
mesmo enterradas de 20 a 30 palavras em um prompt, enquanto o mesmo não acontece com os assuntos. No
entanto, sua experiência pode ser diferente. Apenas lembre-se de que se MJ estiver ignorando algo importante
ou entendendo errado um relacionamento, mudar as palavras e adicionar/remover detalhes deve ser sua primeira
resposta antes de tentar mexer em qualquer coisa avançada, como solicitações múltiplas e pesos numéricos.

robô de ficção científica vintage no jardim do palácio rococó, esboço expressionista a robô de ficção científica vintage no jardim do palácio rococó, perspectiva dinâmica,
carvão - semente 1927 esboço de carvão expressionista - semente 1927

Como todas as solicitações de IA, há um elemento de dizer a MJ “acredite em si mesmo”. Digamos que você não
tenha boas ideias sobre o que deseja que seja o enquadramento ou que queira explicitamente deixar isso ao
acaso. Aqui, adicionei a “perspectiva dinâmica” vagamente encorajadora e o resultado realmente melhorou o
assunto e o fundo. As pessoas de quem zombei no início, que acrescentam
Machine Translated by Google

70 palavras de “renderização de octanas” e “premiado” para crocância? Eles não têm a ideia errada,
necessariamente. Eles simplesmente superestimam as palavras necessárias para dizer “fazer estourar”,
provavelmente porque estão copiando e colando uma bola gigante de katamari que as pessoas vêm
adicionando desde a versão 2, a maior parte da qual não é necessária, se contradiz e distrai. partir da
sua ideia, em vez de melhorá-la.

Finalmente, uma palavra sobre o ruído. Você pode pensar que dizer pequenas palavras não importa
significa que você deve sempre retirá-las de suas instruções. Depende de você, mas na maioria das
vezes, eu não me incomodo. Se estou realmente suado e tentando fazer algo difícil, talvez eu mude para
uma linguagem concisa de computador, mas mesmo quando recebe prosa, MJ tem uma capacidade
notável de evocar a vibração de palavras que claramente não entende quando treinado. seus significados
individualmente. Este é um dos pontos centrais de venda do motor atual!

Trago-lhe contrabando precioso e histórias antigas de terras distantes;


De conquistadores, concubinas e mágicos de tempos mais sombrios;
Traição e conspiração, sacrilégio e heresia;
Mas me sinto bem, me sinto bem esta noite
--ar 2:1 --s 500 --w 300 --c 50 --semente 101

É claro que fui em frente e abri o selo em todos esses parâmetros legais, então vamos falar sobre eles.
Machine Translated by Google

PARÂMETROS SIMPLES

Como o MJ é executado via interface de linha de comando, há uma lista de parâmetros que você pode
colocar após o prompt com um traço duplo. A capacidade de mexer com esses mostradores dá a MJ um
meio-termo divertido para solicitar entre a complexidade de avisos enormes e crocantes para StableDiffusion
offline e o prompt simplista e puro em inglês de outros serviços online como DALLE. Em ordem do mais
para o menos importante:

--Com #:#

A proporção (padrão 1:1) é sem dúvida o parâmetro mais importante no seu kit de ferramentas, porque MJ
é muito sensível à forma como influencia a composição. Se você quiser uma foto de uma pessoa da cabeça
aos pés, por exemplo, sua solicitação será mais eficaz em uma proporção vertical. Para vários assuntos
próximos uns dos outros, você quer paisagem.

mulher samoana de meia-idade confiante em pé sobre uma mulher samoana de meia-idade confiante em pé em uma praia, foto completa, fotografia
fujifilm finepix, praia, foto completa, fotografia fujifilm finepix, hora dourada --semente 99 hora dourada --ar 2:3 --semente 99

Uma razão pela qual a proporção de aspecto é tão fundamental para influenciar os prompts é porque ela
altera completamente o padrão de ruído gerado pelo número inicial da semente. Dois prompts, um por padrão
Machine Translated by Google

square e um em --ar 4:3 não serão necessariamente muito parecidos, já que o ruído inicial será distribuído
de uma maneira totalmente diferente.

A vantagem do controle da proporção de aspecto é que o modelo é bom em permitir que ele influencie o
layout e a composição. Ele tem a intuição de que uma proporção de aspecto vertical é usada para selfies e
que as capturas de tela de TV/filmes são inspiração para proporções de tela widescreen. Não é perfeito,
mas comparado aos modelos SD, é bastante refinado e você pode fazer coisas muito legais com ele.

pixel art de nível de plataforma para jogo de rolagem lateral 2D, quebra-cabeças de salto, tema de deserto, pixel art, rolagem paralaxe, jogo retrô de 16
bits --ar 12:1 --seed 1985

Notavelmente, MJ permite proporções extremas. Você pode usar algo em torno de 14:1 widescreen para
alguns usos de nicho. (O verdadeiro máximo é 4096px nos lados longos, ou 128:9).

A maior desvantagem da proporção de aspecto é a mesma que sua vantagem: pode ser mais difícil fazer
algo que MJ considera contra-intuitivo para sua proporção de aspecto. Digamos que você queira aquela
senhora samoana em widescreen, porque ela está reclinada ou porque a câmera está com zoom reduzido.
Você pode precisar de alguns truques do capítulo 2 para acertar o enquadramento.

mulher samoana de meia-idade confiante em pé em uma praia, foto completa, foto ampla de uma mulher samoana de meia-idade confiante caminhando
fotografia fujifilm finepix, hora dourada pela praia vazia, hora dourada, fotografia fujifilm finepix

--ar 2:1 --semente 99 --ar 2:1 --semente 99

Aqui você pode ver as grades completas mostrando o conjunto de truques em ação. Mudei “plano completo”
para “plano amplo” e movi para a frente, “em pé” tornou-se “caminhando” para aumentar o foco na parte
inferior do corpo e “vazio” foi adicionado à praia para enfatizar mais o fundo. Observe que em nenhum
momento eu disse “diminuir o zoom” (qualquer menção a “zoom” tende a aumentar o zoom) ou “mostrar o
corpo inteiro” ou qualquer coisa estranha do tipo. Para tirar MJ da zona de conforto da proporção de
aspecto, sempre dê preferência à implicação em vez da instrução direta. O mesmo vale para o oposto
Machine Translated by Google

caso em que você deseja uma proporção vertical, mas apenas um tiro na cabeça (porque deseja que
eles olhem para algo acima deles, por exemplo, como um lindo camarote ou um OVNI). Para evitar
que MJ desenhe um pescoço comicamente longo, pode ser necessária alguma experimentação com
ordem/repetição de palavras ou técnicas mais avançadas de capítulos posteriores para acertar.

machado de batalha viking de bit duplo, cabo de madeira, machado de batalha viking de bit duplo, cabo de madeira,
simétrico, fundo preto, borda afiada simétrico, fundo preto, borda afiada
--semente 13 --ar 1:2 --semente 13

E lembre-se de sempre deixar espaço suficiente para o assunto. Especialmente as armas “simplesmente
funcionarão” melhor em uma proporção alta/longa que se ajuste ao cabo/cano.

--s# / --style

Stylize (padrão 100, intervalo de 0 a 1000) representa a força do “estilo house” de MJ. Quanto maior
o valor do estilo, mais opinativo MJ será sobre o seu prompt. A estilização máxima produzirá imagens
“mais bonitas” e com mais coerência; a desvantagem é que é mais provável que partes do seu prompt
sejam ignoradas. Este é o parâmetro mais forte depois da proporção e, como é o único ativado por
padrão, tende a ser o mais influente na “aparência” geral de MJ.
Tem sido um dos parâmetros mais confusos e contra-intuitivos de usar desde o seu início, e a versão
5 não é diferente.

Para começar, --s 0 não desativa o estilo . Para fazer isso, você precisa usar o parâmetro totalmente
separado --style raw. Sim, existem dois parâmetros diferentes chamados “estilo” e
Machine Translated by Google

“estilizar”, então vou me referir a estilizar apenas como --s no restante desta seção. E ambos são
compatíveis, então o verdadeiro comando de estilo house “zero absoluto” é --style raw --s 0. Você
poderia pensar nisso como --s sendo um grande botão de controle para efeitos house no estilo padrão,
e um ajuste mais fino. botão de controle quando usado com --style raw.

Considerando tudo isso, é difícil entender por que eles não apenas dimensionaram o comando de forma
mais ampla e os colocaram no mesmo gradiente; de qualquer maneira, há muito pouca diferença entre
algo como --s 650 e --s 660. Mas vamos em frente; aderindo ao mínimo e ao máximo --s para fins de
comparação (mais sobre o estilo bruto posteriormente).

a conquista marítima de Corinto, desembarque anfíbio por homens de armas, ilustração a conquista marítima de Corinto, desembarque anfíbio por homens de armas, ilustração
digital realista --ar 5:4 --s 0 --seed 146 digital realista --ar 5:4 --s 1000 --seed 146

Mencionei muito “coerência” e espero que este lado a lado ilustre o que quero dizer com isso. A imagem
mínima é um pouco confusa, há problemas de escala com os soldados, dois deles estão na água, três
e meio deles estão em uma jangada e parece que dois tipos diferentes de barcos estão se fundindo.
outro sob a bandeira austríaca. A imagem máxima, por outro lado, é simplesmente melhor. Existem
alguns problemas difíceis que ainda poderiam usar algumas variações de TLC, mas tem navios mais
limpos e um melhor senso de escala, com máquinas de cerco sendo montadas em uma costa claramente
grega.

Com MJ agora na resolução nativa de megapixels, high --s meio que faz o que os valores high --q
costumavam fazer nas versões anteriores, agora que não precisa mais de renderização 2x para fazê-lo:
faz um prompt parecer mais “épico”, produzindo zoom fotos com separação clara entre vários assuntos
ou primeiros planos/fundos. Então é só maximizar, certo?
Machine Translated by Google

esboço arquitetônico do grande templo zulu em esboço arquitetônico do grande templo zulu em ulundi --s 0 --seed 4444 ulundi --s 1000 --seed 4444

Não exatamente. Lembre-se, a desvantagem do estilo da casa MJ é que, ao tornar seu prompt mais
épico e elegante, ele pode ignorar completamente algumas partes dele. Este não é um prompt longo
e “esboço arquitetônico” são as duas primeiras palavras. Mas isso não foi o suficiente para MJ, então
em --s 1000 nossas instruções foram descartadas em favor de uma pequena pintura de algo mais
parecido com Frank Lloyd Wright do que qualquer outra coisa, enquanto --s 0 fielmente nos dá algo
mais brando e parecido com um esboço.

Para entender melhor quando --s pode ser benéfico ou prejudicial, considere que o “estilo doméstico”
de MJ combina duas influências: estímulos diretos ao desenvolvedor e feedback periódico do usuário
na forma de votos no site, que são incorporados ao algoritmo quando eles treinam uma nova versão. .
Ambos compensam sua solicitação de maneiras diferentes.

Como MJ não é de código aberto, os empurrões dos desenvolvedores só podem ser especulados,
mas um deles tem sido consistentemente falado e verificável em versões anteriores de MJ: o
empurrão em direção ao estilo de “pintura digital realista” para Corinth. Uma coisa que você notará se
usar o estilo raw por um tempo (ou tiver experimentado o StableDiffusion padrão ou outras IAs
“brutas”) é que tudo pode parecer uma foto incrível. Os AIs treinam em fotografia digital, clipart de
desenhos animados, os antigos mestres e tudo mais. Para mitigar isso, há um empurrão universal em
direção à estética “tendência na estação de arte” (não o pré-prompt real, tenho certeza) que direciona
os tokens fotográficos para menos realismo, e os tokens de arte estilizados para mais realismo.
Aqui está outro exemplo de alto --s levando MJ ao erro:
Machine Translated by Google

quadro-chave de anime de uma mulher ruiva vestindo uma jaqueta quadro-chave de anime de uma mulher ruiva vestindo uma jaqueta
jeans, parada pensativa na cidade neon à noite, animação cel de jeans, parada pensativa na cidade neon à noite, animação cel de
cor plana, estilo de arte retrô dos anos 80 cor plana, estilo de arte retrô dos anos 80

--ar 4:3 --s 0 --seed 8888 --ar 4:3 --s 1000 --semente 8888

Tentei sugerir algo que poderia ser uma captura de tela real de um anime dos anos 1980, mas...
s 1000 está aumentando o “realismo” muito alto para prestar atenção a qualquer uma das dicas de anime,
animação ou estilo de arte retrô. Você pode obter estilos simples com valores --s altos ou estilos detalhados
com valores --s baixos; Talvez eu pudesse combater a tendência acima com mais algumas sugestões ou repetições.
Mas os parâmetros são gratuitos, enquanto cada token extra no seu prompt dilui os outros, portanto, aproveite
valores altos/baixos quando apropriado. (Felizmente, --s é muito mais compatível com prompts de fotografia
do que em versões anteriores e, a menos que você queira algo simples intencionalmente, pode ser
recomendado sem reservas fazer exatamente o que diz e estilizar mais as coisas, embora correndo o risco de
ignorar tags pouco elegantes. )

roda gigante abandonada, desabando na roda gigante pantanosa, desabando nas ruínas pantanosas de um parque de diversões, decadente, ruínas zeiss
de um parque de diversões, decadente, zeiss 35mm fotografia
Fotografia 35mm
--ar 4:3 --s 0 --semente 8 --ar 4:3 --s 1000 --semente 8
Machine Translated by Google

Agora considere o feedback do usuário. Os benefícios disto são óbvios tanto do ponto de vista artístico como

perspectiva cínica. As pessoas tendem a votar positivamente em coisas boas, como rostos com dois olhos, tão altos
os valores reduzem as vaias básicas da IA, como o meio-soldado no exemplo de Corinto, e MJ produzindo coisas
populares é ótimo para retenção de assinantes. No entanto, graças à sociedade, as pessoas não apenas votam a
favor de coisas boas, elas votam a favor do mesmo tipo de coisas boas, o que definitivamente contribui para o
sentimento “rígido” que você pode obter em níveis elevados. Basta dar uma olhada na galeria de tendências no site
e ver como tudo pesa em temas steampunk, salpicos de tinta e, de maneira mais geral, retratos e fotorrealismo.

um grito atravessa o céu; tem um grito que atravessa o céu; já aconteceu antes, mas não há nada para comparar, aconteceu antes, mas não há nada para comparar agora

isso até agora


--ar 14:11 --s 0 --seed 1973 --ar 14:11 --s 1000 --semente 1973

Aqui, um prompt em prosa, cortesia de Thomas Pynchon, leva a um desenho incrivelmente evocativo no mínimo -s,
enquanto o máximo -s apenas nos dá uma representação fotorrealista tipicamente bastante de um homem gritando.
Ironicamente, a palavra “estilizado”, que tende a ser uma palavra poderosa em termos de menos realismo e
proporções mais exageradas e dramáticas, muitas vezes funciona contra o gosto do parâmetro --s pelo fotorrealismo.
Outros casos de uso baixos a serem considerados incluem querer assuntos convencionalmente pouco atraentes
(onde você está lutando contra a tendência “bonita”) ou linhas simples onde você nem quer sombreamento, muito
menos fotorrealismo sofisticado.

E para extremos, você não deve ter medo de usar --style raw, também conhecido como estilo de lançamento v5.
Esta foi a primeira versão de MJ a ser lançada com estilo “neutro”. Muitas pessoas não gostaram disso porque se
acostumaram com a estilização pesada das versões anteriores, permitindo avisos curtos e vagos para ainda obter
belos resultados. Mas agora que é um parâmetro opcional, ainda me pego recorrendo a ele, pelas mesmas razões
que --s 0, para maximizar a atenção dada aos meus detalhes ou para solicitações inovadoras.
Machine Translated by Google

arte web mspaint primitiva de medieval arte web mspaint primitiva de medieval
castelo --s 0 --semente 1066 castelo --estilo cru --seed 1066

Aqui está um bom exemplo de onde o estilo bruto entende a tarefa de uma forma fundamental que mesmo o mínimo
de estilização não consegue alcançar. O resultado --s 0 ainda é influenciado o suficiente pela tendência da “ilustração”
de se parecer mais com uma pintura básica em mídia física do que com mspaint. A versão bruta ainda parece um
pouco inautêntica (é difícil para os modelos de difusão fazerem pixel art verdadeiro, e a palavra “pixel” é dominante
demais para ser adicionada a qualquer prompt sem evocar um jogo retrô), mas muito, muito mais próxima do que
estamos indo em frente, com bordas irregulares e cores sólidas.

O estilo cru pode fazer tudo o que o estilo normal pode fazer, mas às vezes será um pouco mais difícil, como dirigir
com câmbio manual em vez de transmissão automática. Se você estiver vindo de estoque ou StableDiffusion
levemente ajustado, você já avisa assim. Você também vai querer isso para alguns truques muito específicos de
solicitação de imagens mais tarde, onde queremos manter a influência de MJ mínima. Mas falta absolutamente
qualquer “vibração” padrão ou capacidade de evocar o humor a partir de instruções breves, como estilização normal.
O padrão é ainda mais fotorrealista e as dicas de estilo precisam aparecer mais cedo no prompt, possivelmente
repetidas mais e talvez até aumentadas com vários prompts (consulte o capítulo 4).

Em particular, é muito menos receptivo a sugestões em “inglês simples”. Dê a ele aquelas letras de Steve Earle do
final do capítulo passado, e ele lerá isso, pensará que parece uma citação sofisticada e colocará um texto lixo ao lado
de um rosto bonito genérico, como se estivesse tentando criar um meme.
Machine Translated by Google

Trago-lhe contrabando precioso e histórias antigas de terras distantes;


De conquistadores, concubinas e mágicos de tempos mais sombrios;
Traição e conspiração, sacrilégio e heresia;
Mas me sinto bem, me sinto bem esta noite
--ar 2:1 --style raw --s 500 --w 300 --c 50 --seed 101

Resumindo: esteja ciente do estilo da casa de MJ e como isso afetará seus resultados. Muitos dos exemplos
usados nesta seção são intencionalmente simplificados para fins ilustrativos e, à medida que você se torna
mais proficiente em solicitar MJ, provavelmente se inclinará para valores mais baixos de --s e até mesmo
brincará com o estilo bruto. No entanto, para usuários mais novos, o estilo padrão (ou mesmo alguns pequenos
solavancos) é um equilíbrio inicial decente entre respeitar e melhorar seu prompt. É o padrão por um motivo.

--Em #

Estranho (padrão 0, intervalo de 0 a 3000) é a mais nova adição ao kit de ferramentas e fornece o alívio
necessário para pessoas que acham --s muito restritivo. Weird converte o “empurrão” da estilização de um
vetor positivo para um negativo, resultando em imagens que são especificamente direcionadas para não se
parecerem com a produção média de MJ. De acordo com os comentários dos desenvolvedores, ele é
dimensionado para ser aproximadamente equivalente aos valores --s correspondentes, mas a escala vai um
pouco mais longe (até 3.000) porque, embora a estilização se tornasse totalmente monótona após 1.000
(cada imagem seria uma garota steampunk em um cidade voadora nublada, não importa o prompt), valores
estranhos muito altos deixam mais flexibilidade. “Longe do ponto de convergência da estilização” é uma
direção mais aberta no espaço latente de mais de cem dimensões.
Machine Translated by Google

desenho esboçado em giz de cera de ilhas flutuantes vistas através de lentes olho de peixe, desenho esboçado em giz de cera de ilhas flutuantes vistas através de lentes olho de peixe,
paisagem onírica, cores brilhantes do dia, orientação rotativa --ar 4:3 -- paisagem onírica, cores brilhantes do dia, orientação rotativa --ar 4:3 --w 500 --seed 10

semente 10

A contribuição positiva de “estranho” aqui é óbvia. Nas configurações padrão, MJ é muito fantasioso para
se preocupar com um “desenho de giz de cera esboçado”, dando-nos mais uma aquarela de arte conceitual.
Mas aumentando o estranho para 500 (5x a influência do estilo padrão), obtivemos um desenho muito
mais “parecido com giz de cera” que se desvia um pouco do caminho comum e até tenta capturar a parte
“vista através da lente olho de peixe”. (cujo padrão apenas sugere halos circulares.)

A maior diferença entre usar estranho e usar estilizar é que níveis ultra-altos de estilização irão ignorar
completamente o seu prompt, enquanto níveis ultra-altos de estranho ainda tentarão interpretar o máximo
possível, apenas de uma forma que pode ser escandalosamente feio. Isso torna estranho mais útil do que
estilizar ao lidar com prompts longos que podem ter muitas dicas de estilo e detalhes que MJ pode achar
difícil de focar ou desagregar.

Isso também torna estranho menos útil ao lidar com prompts mais curtos. Lembre-se, como o estilo
também é responsável por imagens com aparência “mais limpa”, com detalhes mais nítidos e menos
granulados, se você aumentar o parâmetro estranho sem fornecer nenhuma instrução específica sobre
onde ir além de “longe do estilo”, pode acabar colocando crie uma imagem que pareça “estilizada padrão,
mas frita com artefatos JPEG simulados”, já que esse é um eixo de comparação válido que pode atingir
durante a difusão.
Machine Translated by Google

Houston, Texas, centro da cidade

horizonte, dia, vista aérea, fotografia


panorâmica -
-ar 5:2 --s 1000 --semente 713

Houston, Texas, centro da cidade

horizonte, dia, vista aérea, fotografia


panorâmica -
-ar 5:2 --s 0 --w 3000 --
semente 713

Este breve prompt falhou de maneiras diferentes com estilo máximo e estranho máximo. Max Stylize, como
esperávamos, simplesmente não acha “Houston” (ou “diurno” ou “vista aérea”) muito atraente e, em vez disso,
nos dá uma bela vista do pôr do sol de Seattle no nível dos olhos, completa com dois (?) agulhas espaciais e
águas límpidas do Pacífico (acredite em um nativo, Buffalo Bayou é mais um marrom industrial indefinido).

Max estranho nos dá algo muito mais realista, apontando para alguns edifícios parecidos com Houston, mas
você notará que a saída tem uma névoa e uma granulação, como se a câmera do nosso drone voasse
através de uma chaminé e embaçasse sua lente . Também é menos panorâmico (ultrapassar 1000 ainda
tende a ignorar termos imediatos, especialmente aqueles que se alinham bem com o estilo, o que favorece
fotos panorâmicas nesta proporção). Este é, portanto, um exemplo de prompt em que é melhor manter o
estranho e o estilizado no lado inferior.

No entanto, como estilizar tem um valor padrão e estranho não, muitas vezes pode valer a pena adicionar
um pequeno valor estranho para aplicar um freio às mesmas tendências de MJ, ao mesmo tempo que fornece
alguns dos benefícios de coerência do padrão ou de baixas doses de estilização. Adicionar --w 100 para
equilibrar o padrão, ou um valor menor para equilibrar um nível mais baixo de estilização, é um daqueles
toques de tempero geralmente úteis.
Machine Translated by Google

uma pintura neoexpressionista de como é a depressão por dentro, paleta legal, pinceladas uma pintura neoexpressionista de como é a depressão por dentro, paleta legal, pinceladas
selvagens selvagens

--ar 4:5 --s 75 --semente 20 --ar 4:5 --s 75 --w 75 --semente 20

Vá em frente e vá até a pesquisa de imagens do Google “neoexpressionismo” se você não estiver familiarizado
com o termo. Depois de fazer isso, esperamos que fique claro como 75% de estilização, sem o benefício do
estranho, direcionou a imagem original para algo um pouco realista demais para ser chamado assim, embora
tenha feito um bom trabalho com a paleta e pinceladas solicitadas. Um valor correspondente de 75 para
estranho, porém, distorce tudo de uma forma muito evocativa que leva muito mais para as interpretações
selvagens e anatomicamente incorretas associadas a este estilo.

Assim como eu recomendo trabalhar com valores de estilização inferiores ao padrão, recomendo trabalhar
com um valor estranho superior ao padrão à medida que você se familiariza com as solicitações de MJ,
embora no geral eu optasse por manter a estilização igual a um pouco mais alto, a menos que procure
propositalmente um assunto “estranho”. (“Estranho” é uma palavra que, ao contrário de “estilizar”, combina
bem com o parâmetro que leva seu nome.)

E, de forma mais geral, ambos podem criar sinergias mesmo em níveis elevados. Quando você está sugerindo
coisas extremamente estranhas, a capacidade de alta estilização para reunir a imagem com detalhes claros e
impressionantes pode de repente se tornar relevante para realmente elevar a capacidade de “estranheza” de
--Em.
Machine Translated by Google

foto cinematográfica surrealista de carnívoro gigante foto cinematográfica surrealista de planta carnívora gigante mastigando para a câmera, dentes
afiados flanqueados por plantas mastigando para a câmera, dentes afiados flanqueados por vinhas sombrias retorcidas, perspectiva distorcida, vinhas
sombrias retorcidas, perspectiva distorcida, pesadelos no jardim botânico
pesadelos no jardim botânico
--ar 5:3 --w 800 --semente 1031 --ar 5:3 --s 600 --w 800 --semente 1031

Eu não odeio a primeira imagem, ela é boa de uma forma muito lo-fi, tipo filme SCP. Se você queria
algo que pudesse ter sido uma imagem cinematográfica surrealista “real” dos anos 70 ou algo
assim, a estilização baixa é a melhor opção. Mas para quando você quer algo explicitamente maluco
e irreal, que é claramente “algo fotorrealista que não poderia realmente ter existido”, o alto esquisito
e o alto estilo combinam muito bem.

--c#

Caos (padrão 0, intervalo de 0 a 100) faz mais ou menos o que diz na lata. Se --s exerce influência
sobre o estilo da casa de MJ, e --w exerce influência fora dele, --c exerce uma influência aleatória
em seu prompt. Especificamente, ele faz isso dizendo às quatro imagens da grade para se afastarem
umas das outras. (Por esse motivo, todos os exemplos dados aqui serão grades completas;
desculpas àqueles que não estão lendo com zoom de 200%.)

vista em perspectiva da cidade de Gotham, noir estilizado - vista em perspectiva da cidade de Gotham, noir estilizado -
-ar 3:2 --w 75 --semente 1939 -ar 3:2 --w 75 --c 80 --semente 1939

Acima, com estilização padrão e um buff modesto e estranho, a grade concorda principalmente com o que o
prompt deve representar: uma cidade escura iluminada pela lua. Adicionar 80% de caos envia todas as quatro grades
Machine Translated by Google

imagens indo para o Batman gótico ou um pôr do sol laranja ou nossa base antártica do capítulo 2. Esteja
avisado: usar o caos é dizer explicitamente a MJ para desobedecer ao seu prompt, ao contrário de estilizado ou
estranho, onde seu nível de desobediência dependerá de suas especificidades. O caos não é uma boa
ferramenta de engenharia imediata , especialmente se você já sabe para onde está indo.

Mas ainda procuro isso às vezes quando estou me atrapalhando sem ter a menor ideia, pois divergir esses
quatro resultados pode aumentar a “área de superfície” do seu prompt e tornar mais rápido encontrar aquele
ponto ideal no espaço latente. Quando o caos foi lançado pela primeira vez, ele foi apresentado como uma
ferramenta para as próximas “grandes grades” de resultados 3x3 e 4x4, mas como estes se mostraram
intratáveis no Discord em comparação com macros, seu amigo agora é o parâmetro --repeat. Usuários
avançados do plano profissional que usam MJ de forma semiprofissional devem dar uma olhada mais profunda.

Além do que é afirmado na documentação oficial, tem havido descrições inconsistentes sobre o mecanismo real
do caos. A certa altura, foi comparado a embebedar o difusor, tornando-o menos “seguro” sobre onde ir,
improvisando conceitos diferentes enquanto cambaleava. No entanto, também foi descrito como lançar esses
diferentes conceitos diretamente no prompt (não como palavras, mas como os números da matriz abstrata que
o CLIP treina para correlacionar com palavras). Este mistério é agravado pelo caos que possui algumas
habilidades que outros parâmetros não possuem. Ao contrário de stylize ou esquisito, ele pode influenciar
prompts de imagens puras (ou seja, o comando /blend no capítulo 5) e tem a capacidade de divergir remixes
(veja o capítulo 6) mais distantes uns dos outros, bem como do /imagine inicial.

desenho retrô dos anos 1980 de um panda vermelho com cauda desenho retrô dos anos 1980 de um panda vermelho com cauda
listrada, parado em uma colina gramada com vista para o listrada, parado em uma colina gramada com vista para o
vibrante pôr do sol na praia, cercado por altos coqueiros, gaivotas distantes vibrante pôr do sol na praia, cercado por altos coqueiros, gaivotas distantes
voando --ar 4:3 --s 0 -- voando --ar 4:3 --s 0 --
semente 12 c 90 --semente 12

Outro aspecto contra-intuitivo disso é que níveis superaltos de caos não tornam seu prompt incompleto, não
importa quão detalhado ele seja, o que você esperaria se o difusor estivesse tendo problemas.
Machine Translated by Google

dificuldade em decidir para onde ir (e você vê efeitos incompletos com prompts complicados em valores --q
ultrabaixos ou versões anteriores do MJ onde o difusor era limitado pelo tempo de renderização). As imagens
do lado direito têm uma aparência perfeitamente boa; mesmo com 90% de caos e zero estilização, você pode
dizer o que são. Eles simplesmente não são o que solicitamos. Um panda antropomórfico assustador segurando
uma prancha de surf? Algum pixel e arte vetorial com tema praiano? Uma paisagem roxa?
Que merda.

Outro aspecto estranho do caos é que ele cresce de uma forma muito irregular e imprevisível.

máquina de exorcismo básica da Amazon --ar 4:5 --s 150 máquina de exorcismo básico da Amazon --ar 4:5 --s 150
--w 100 --seed 800 --w 100 --c 5 --seed 800

Você pode ver por que eles normalizaram para 100 em vez de 1000; pequenas mudanças simplesmente não
perturbam muito o prompt. Executar o mesmo prompt e a mesma semente com --c 1 (ou mesmo --c 5, como
visto aqui) é como uma variação sutil, em oposição a algo como estilizar ou estranho, que são basicamente
curvas logarítmicas onde uma diferença de proporção semelhante entre --s 0 e --s 50 frequentemente saltam
todos os quatro quadrantes. Se você continuar aumentando o caos, todos eles eventualmente “saltarão” para
um layout totalmente diferente, mas com o caos, a maioria dos prompts parece ter apenas algumas “etapas”
entre o caos nulo e máximo, onde eles mudam para verdadeiras representações alternativas ( por exemplo,
haverá um aos 8, outro aos 21, outro aos 29, outro aos 44, aleatoriamente outro aos 45, etc.)

Se você é um prompter minimalista que gosta mais de “encontrar” coisas no espaço latente do que projetá-las,
o caos é uma ferramenta indispensável. É uma maneira agradável e preguiçosa de dar um toque especial aos
prompts simples, quando você não deseja adicionar mais detalhes.
Machine Translated by Google

algo bizarro, marcador aquarela estilizado --ar 5:7 --seed 2


--em 1000 --c 100 --w 1000 --c 100

Antes da introdução do estranho, o caos também desempenhava o papel de uma alternativa/complemento


para --s, uma vez que a aleatoriedade muitas vezes servia para desviar o estilo de sua rotina visual,
embora ao custo de uma desobediência mais imediata. Agora, ambos os parâmetros podem desempenhar
esse papel até certo ponto, mas embora sejam compatíveis entre si, valores altos de --w (uma vez que já
podem divergir um do outro de forma imprevisível) tendem a inundar valores altos de --c, então você não
aproveite tanto adicionando caos a prompts já estranhos, como visto acima, onde a grade max-weird se
parece quase exatamente com a grade max-weird + max-chaos. Isso também demonstra como o max-
chaos pode ser um instrumento muito contundente, já que a única coisa definitiva que colocamos em
nosso prompt (a sugestão no estilo “marcador aquarela”) é bastante ignorada por 3/4 das grades no max-chaos.

Como o padrão é zero e tem um nome mais humilde comparado a coisas como “estilizar” e “qualidade”,
que soam obviamente boas, as vantagens do caos não são imediatamente óbvias para o usuário casual
de MJ. Isso o torna uma das ferramentas mais subestimadas do kit para aproveitar a surpreendente
criatividade de MJ. Ao contrário do estranho, eu não adotaria necessariamente um valor de caos “padrão”
para mim, já que agora é uma ferramenta muito mais situacional do que qualquer um de seus irmãos.
Mas se você estiver solicitando uma tendência mais exploratória, é bastante útil definir um valor de caos
de 10 a 20 para ver o que acontece, e valores de caos superaltos muitas vezes podem provocar novas
ideias ou produzir imagens impressionantes para uso com a imagem. opções de solicitação e remixagem
dos capítulos 5-6.

--q #
Machine Translated by Google

Qualidade (padrão 1, caso contrário 0,25/0,5) determina a quantidade de tempo que MJ gasta renderizando uma
cena. Ele será arredondado para uma dessas configurações fixas, portanto não existe “qualidade 0,75”, ele será
processado apenas como “qualidade 1”. Ao contrário de outros parâmetros, a qualidade afeta diretamente a quantidade
de tempo que MJ gasta renderizando e, como tal, esgota seus créditos mais lentamente no modo medido para valores
mais baixos.

Apesar do nome, é uma configuração muito menos importante do que nas versões anteriores; você pode executar
muitos prompts com qualidade 0,5 e não notar nenhuma grande diferença em relação ao padrão (e, aliás, esticar o
tempo da GPU duas vezes mais, recomendo qualidade 0,5 como padrão se você estiver em um plano sem modo de
relaxamento).

fotografia do interior do submarino, los angeles-fotografia do interior do submarino, submarino nuclear de ataque rápido da classe los angeles, SSN-688,
submarino nuclear de ataque rápido da classe dos EUA, SSN-688, marinha dos EUA, monitores LCD da década de 1990
Marinha, monitores LCD da década de 1990
--ar 16:9 --q 0,5 --semente 1990 --ar 16:9 --semente 1990

As diferenças entre as duas imagens acima são bastante sutis. A meia qualidade não teve tempo de renderizar uma
cadeira, os monitores são um pouco menos desenvolvidos, principalmente os estranhos e caídos circulares na parte
de trás. Mas essas são pequenas falhas em uma renderização muito ocupada durante metade do tempo da GPU, e
isso antes de você perceber que estou mentindo e troquei as legendas dos prompts; aquele rotulado como --q 0,5 lá
em cima é de qualidade total. Mesmo a qualidade de um quarto tem méritos claros do ponto de vista de custo-benefício:
Machine Translated by Google

cavalheiro vitoriano segurando buquê de rosa, liso cavalheiro vitoriano segurando buquê de rosa, liso
anime sombreado em fundo branco anime sombreado em fundo branco
--ar 11:14 --semente 1875 --s 0 --q 0,25 --ar 11:14 --seed 1875 --s 0 --q 1

Você teria dificuldade em considerar aquela imagem com qualidade de um quarto pior do que a imagem
completa. Claro, a mão que segura é um pouco confusa, mas isso não é pior do que a única flor de rosa
gigante, e a mão no bolso está pelo menos limpa, enquanto a renderização completa o vê enfiando
desajeitadamente apenas o dedo mindinho ali. Para 4x a eficiência da GPU, é um bom negócio.

Valores de baixa qualidade também são burros de carga utilitários; se eu quiser ver se MJ tem um conceito
de alguma coisa, executo um prompt rápido de uma palavra em baixa qualidade e estilo bruto para poder ver
se é algo próximo do que a palavra significa.

Em geral, você deve tentar diminuir a qualidade ao solicitar ilustrações estilizadas, como desenhos animados,
design de logotipo ou qualquer coisa que exija formas limpas. Também é recomendado se você sugerir algo
muito simples que não tenha muito para MJ “mastigar” (e você não quer a improvisação direcionada/aleatória
que vem com estilização/caos).
Machine Translated by Google

medalhão de bronze plano gravado com tigre medalhão de bronze plano gravado com tigre
design, estilo mandala indiana medieval, isolado em fundo preto design, estilo mandala indiana medieval, isolado em fundo preto

--q 0,25 --semente 456 --semente 456

Observe como as linhas na borda do medalhão e no tigre são mais amplas na grade de qualidade de
um quarto do que na grade de qualidade total, cujas gravuras podem ficar superfinas a ponto de serem
texturizadas. Esta é uma boa indicação do que você pode esperar ao diminuir a qualidade. Também não
é uma coincidência que ambos os exemplos que mostrei de qualidade trimestral produzindo resultados
decentes tivessem fundos brancos ou pretos. Qualquer tipo de experiência envolvida (que MJ
normalmente tentará, a menos que solicitado de outra forma) requer pelo menos uma renderização de meia qualidade.

multidão de antigos aldeões chineses reunidos sob o brilho RGB de multidão de antigos aldeões chineses reunidos sob o brilho RGB de
um único obelisco de néon anacrônico à meia-noite durante o tufão um único obelisco de néon anacrônico à meia-noite durante o tufão

--ar 14:11 --q 0,5 --semente 4321 --ar 14:11 --semente 4321
Machine Translated by Google

Portanto, se meia qualidade quase sempre é boa e um quarto de qualidade ainda funciona para muitos
prompts mais simples, quando você realmente precisa de qualidade total? Principalmente, você precisa dele
para prompts longos que contêm vários detalhes sobre vários aspectos da imagem. Aqui, o difusor realmente
só teve tempo para a primeira metade do prompt, e --q 0.5 simplesmente não conseguiu registrar as partes
“obelisco neon” e “meia-noite” antes de encerrar as coisas, então obtemos uma torre genérica e qual poderia
ser o olho do tufão, eu acho.

Você também pode tentar usar configurações de baixa qualidade para pescar para obter um bom resultado e depois tentar
executar novamente a semente com qualidade total, embora isso não seja 100% confiável; muitas vezes o tempo extra de

renderização faz com que o ruído salte de uma maneira totalmente diferente. (Recebi alguns prompts que funcionaram
apenas em --q 0.5.)

--não e --iw

Esses parâmetros requerem algum contexto e são discutidos nos capítulos 4 e 5, respectivamente.

--parar #

Parar (padrão 100, intervalo de 10 a 100) interromperá a renderização em uma porcentagem predeterminada.
Ele existe para lidar com o problema da IA sair dos trilhos nas últimas porcentagens. É semelhante às
configurações de baixa qualidade (e também custa proporcionalmente menos horas de GPU), mas age de
maneira diferente.

um retrato sombrio e hiperrealista do próprio diabo --seed 666 --q 0.5 um retrato sombrio e hiperrealista do próprio diabo - semente 666 -
parada 50
Machine Translated by Google

Pense nisso como a diferença entre contar até 100 de dois em dois e contar até 50 de um.
Quando você solicita meia qualidade (0,5) e parada padrão, MJ vai do começo ao fim enquanto pula todas as outras
etapas. Quando você solicita qualidade padrão e meio ponto (50), MJ executa as primeiras 50 etapas, sem pular
nenhuma, e então para. Portanto, embora as saídas de baixa qualidade tendam a ser um pouco desleixadas, com
detalhes incompletos se você aumentar o zoom, as saídas de parada baixa tendem a ficar borradas e sem nenhum
detalhe.

Existem dois casos de uso principais para stop: valores de stop altos para quando você deseja usar a imagem de 80%
ou 90% como resultado final porque é realmente melhor, ou valores de stop mais baixos (cerca de 50) para quando
você gosta de uma composição ou vibração geral e deseja usá-lo como base para remixar em outro motor MJ ou
Stable Diffusion.

--telha

Outro parâmetro simples, --tile fornece uma imagem repetida continuamente nas bordas, o que é obviamente ótimo
para trabalhos de textura, papéis de parede ou planos de fundo. (Infelizmente, atualmente é apenas um comando
booleano e não há como fazer apenas as bordas horizontais ou verticais serem lado a lado.)

grandes pedras irregulares, prata anasazi, gama de cores contrastantes, textura de lado a lado 4x

albedo seca e desgastada --c 5 --tile --seed 989

Você pode usar --tile com algo estranho, como um retrato ou um horizonte, mas é provável que não funcione ou

simplesmente faça algo preguiçoso, como desenhar uma moldura ao redor da imagem para que ela fique lado a lado

como uma grade.

--repeat # (e permutações)
Machine Translated by Google

Se você achou que os dois últimos eram autoexplicativos, adivinhe o que este faz! Coloque um número
depois e deixe rasgar. Se você tiver uma assinatura de nível mais alto, este é um bom substituto para
grades maiores, desde que você esteja satisfeito com sua solicitação (ou gaste mais pescando GPU).

As permutações são ainda mais úteis. Usando colchetes {} e (suspiro pesado) vírgulas, você pode criar
macros em diversas variações de um prompt. Isso funciona em tudo na janela do Discord, incluindo
parâmetros e prompts de imagem. Portanto, você pode fazer coisas como --c {0,2,5,10}
para testar os níveis de caos. Você pode até usar mais de um, mas fique atento à multiplicação. Na alta
probabilidade de o segmento de prompt que você deseja permutar conter vírgulas, escape-os com uma
barra invertida \, para que não contem como quebras de permutação (e suspire comigo no canal de
sugestões).

acho que deveria falar sobre --niji

O parâmetro --niji usará uma versão paralela do modelo (niji•journey) fortemente sintonizada com a
estilização de anime. Em vez do estilo padrão e bruto, é o padrão e quatro estilos (“original”, “expressivo”,
“fofo”, “cénico”) nenhum dos quais é análogo ao bruto (ou seja, cada um deles aponta para uma direção
específica e diferente do padrão ).

Mulher somali de 45 anos, com cabelos pretos cacheados, vestindo um Mulher somali de 45 anos, com cabelo preto encaracolado, vestindo um
luxuoso roupão ciano em um banheiro de mármore escuro --niji --seed luxuoso roupão ciano em um banheiro de mármore escuro, fotografia
987 Sony DSLR
--niji --seed 987 --com 0

Como vimos, está longe de ser impossível tirar o anime do modelo v5 normal e, da mesma forma, o modelo
niji não precisa de tanto estímulo para produzir fotorrealismo. Zero
Machine Translated by Google

estilizar e algumas dicas indo na direção oposta é o suficiente para inverter a saída dos modelos. Eles
operam na mesma base de código e funcionam quase de forma idêntica em termos de uso prático; todos os
parâmetros acima se aplicam a eles da mesma maneira (assim como o restante do documento), a única
diferença é que o valor --s representa “anime-ness” em vez de fotorrealismo e --w irá estranhar isso de acordo.
Qual destes você usa mais provavelmente é uma questão de conveniência; se você solicitar mais anime do
que todos os outros estilos combinados, então você também pode usar o modelo ajustado para ele.

Mas a montante do estilo, existem algumas vantagens inerentes ao uso do modelo ajustado a um tema mais
estilizado e abstrato.

mercenária femme fatale usando tapa-olho mercenária femme fatale usando tapa-olho
--semente 5 --niji --style expressivo --seed 5

Por exemplo, qualquer coisa que envolva irregularidade facial é uma tarefa difícil para a v5. O modelo básico
treinou tanto em fotografias que ficou péssimo em desenhar rostos “errados”. Solicitar um personagem com
olhos roxos provavelmente resultará em delineador roxo espalhado ao redor dos olhos azuis, e solicitar um
tapa-olho lhe dará óculos escuros, vendas nos olhos ou bandanas o dia todo. Mas o niji (especialmente os
estilos padrão e expressivos) tem um controle muito mais frouxo sobre rostos, ou corpos humanos, ou outros
conceitos sobre os quais o v5 é “rígido” (como ajustar demais cada arma branca a uma espada), uma vez
que tem que lidar com todos os maneiras totalmente diferentes de serem desenhadas e, a menos que você
precise absolutamente de uma fotografia, é muito mais fácil de direcionar.

Além disso, não quero insistir muito nisso , mas niji (até agora) foi poupado dos pesados golpes aplicados ao
longo da vida útil da v5, que restringiram a política de conteúdo PG-13 a algo mais parecido com o
Machine Translated by Google

Código Hays. Quando o alfa foi lançado, vários pilares de alerta (“corpo inteiro”, por exemplo) causaram
violações flagrantes dos TOS e, no decorrer da força bruta, as roupas voltam a ser vestidas, a v5 agora
aplica um vetor negativo oculto “sem camisa, sem serviço” a qualquer procure imediatamente homens com
o peito nu ou mulheres de biquíni. Não é impossível, mas não estou inclinado a entrar nos detalhes básicos
por razões óbvias; basta usar niji para qualquer coisa “sexy para menores de 13 anos”.

No entanto, Niji tem desvantagens significativas em comparação com a v5. Meu maior problema é que ter
cinco estilos diferentes é ótimo se o seu prompt definitivamente se encaixa em um, mas se caber em mais
de um, ou se você estiver apenas explorando, acabará gastando muito tempo mexendo nos prompts em
paralelo. Dois deles (padrão e original) nem sequer possuem nomes úteis, enquanto expressivos, fofos e
cênicos pelo menos dão algum tipo de indicação sobre seus usos. Mas bifurcar seu fluxo de trabalho pode
levar a uma frustrante queima de GPU.

Além disso, os estilos niji são afinados de forma muito pesada, ainda mais pesada que a v5. Existem certas
peculiaridades específicas que você pode garantir que apareçam em --s 500 e acima, e com exceção do
estilo padrão, elas não funcionam muito bem quando você tenta solicitar "contra o tipo" sem aumentar
afirmativamente --s até 50 ou menos e adicionando um valor --w saudável. Fazer uma mesa gigante com
vários exemplos para cada estilo seria um pouco demais até para mim, mas haha brincadeira, aqui está:

astronauta tsundere pregão de ações, horror sobrenatural --ar 4:5 --niji --s
--ar 4:5 --niji --s 500 -- 500 --seed 2001
semente 2001

O padrão é, sensatamente, a configuração niji


mais ampla e a mais fácil de direcionar
estilisticamente. Na prática, para mim,
isso é basicamente fofo e cênico, já que
você pode obter resultados semelhantes com
uma ou duas palavras-chave imediatas sem
sofrer as mesmas falhas dessas
predefinições. Ele tende a girar, faiscar, tiros
épicos, mas o que você quer, está no meio
da jornada, basta diminuir o volume.
Machine Translated by Google

O estilo niji original era, bem, uma espécie de


show de merda. De todas as configurações, ele
seguiu a direção e isso não mudou, e tem uma
pose padrão opressiva de uma mulher
tocando seus fios de cabelo ondulados.
Apesar disso, se você mantê-lo longe de close-
ups femininos, há muito a recomendar, pois é
muito complexo e adequado para fotos
detalhadas. Esteja preparado para suportar
um pouco de gacha.

Expressivo é o único que é muito opinativo


sobre seu estilo, mas esse estilo é muito “solto”
e incompleto, tornando-o ainda mais fácil de
direcionar do que o padrão em relação ao
assunto. Se você estiver usando niji
porque algum conceito está muito
próximo do modelo, este é o seu modo fácil.
Possui esquemas de cores distintos de baixo
contraste, tendências de fundo mais
simples e tende a ser o estilo mais lascivo.

Fofo funciona como você esperaria, e se você


deseja fazer principalmente coisas chibi muito
simples, pode ser bom. O problema é que
mesmo com estranheza saudável, é
inconsistente fazer coisas fofas com coisas
não fofas; esses prompts tendem a terminar em
algum tipo de espaço latente de peso
zero desleixado ou, pior, começam a
soletrar palavras que não podem ser
renderizadas de maneira fofa como texto
sem sentido.

Scenic também faz principalmente o que diz,


mas compartilha os pontos fracos da
pose original (quando há um close-up) e do
texto fofo (quando há um conceito não
cênico), além de qualquer proporção de
tela widescreen (onde deveria brilhar) é
sem dúvida o pior letterboxer de todos. Uma
prata
forro: seu ponto --s 0 parece ser o mais
próximo do “anime bruto” dos cinco estilos,
então dê uma olhada ocasionalmente.
Machine Translated by Google

--em

Versões mais antigas do MJ podem ser acessadas com o parâmetro de versão --v. Algumas dessas versões não são
compatíveis com parâmetros mais recentes, enquanto outras foram portadas e outras ainda funcionam, mas de
maneira totalmente diferente. Por exemplo, --style costumava ser de formato livre como --no,
mas na v4 isso foi evitado e foi usado para arquivar estilos padrão antigos e depois alterado novamente na v5 para
introduzir as predefinições. Versões um pouco mais antigas da v5 também estão disponíveis em --v 5a, --v 5 e --v 5.1
(estilização padrão aproximadamente ascendente em potência do 5a bruto até os níveis atuais) com compatibilidade
idêntica.

LEGADO --teste --
--em 1 --em 2 --em 3 --em 4
VERSÕES testep

--no E E Y (limitado a 2:3 E


ou 3:2)

--s N N Y (625–60.000; Y (1250–5000; Y (0–1000; 100


padrão 2.500) padrão 2500) padrão)

--Em N N N N N

--c E E E N E
(usa --criativo)

--q E (0,25, 0,5, 2, 5) E (0,25, 0,5, 2, 5) E (0,25, 0,5, 2, 5) N E (0,25, 0,5)

--tile Y E E E N

--Não e E E N E

--iw Y E E N (sem avisos N (somente peso


de imagem) padrão)

--style Y (formato livre) Y (forma livre) Y (forma livre) N Y (4a, 4b para estilos

anteriores, amaldiçoado)

comentários Versões iniciais Primeiros sinais Última versão na base Tentativa falhada de Primeiro motor MJ
foram baseados em um de coerência de código original. Este integração de MJ com totalmente interno.
cc12m_1 fortemente fotorrealista (para ficou POPULAR. Ótimo StableDiffusion. Ainda é o melhor

ajustado. Esboçado e alguns assuntos). Muito poucos recursos para usar / misturar com,
incoerente Texto sábio; pode vibrações, estilizar é um funcionaram e GPU IMO. As proporções são
como a maioria dos anos 20-21 soletrar de forma pouco pesado. o custo era alto. -- quebradas no

difusores da época, mas confiável com vrolls. Às Minha versão da era v3 teste está ajustado para estilos arquivados
os prompts de imagem vezes, o prenúncio é deste documento art e --testp para fotografia. (corrigidos na versão 4c

foram uma grande ajuda. relativamente óbvio. está arquivado aqui. final).
Machine Translated by Google
Machine Translated by Google

MULTI-PROMPTS

Multi-prompts :: são separadores rígidos indicados por dois pontos duplos e dividem o prompt em dois ou mais alvos
independentes para o difusor corresponder. Eles são um dos aspectos mais incompreendidos e mal utilizados do MJ,
e para 90% dos casos de uso (isso vale mesmo para pessoas que se esforçam o suficiente para ler este guia), o
resultado é provavelmente alcançável com prompts únicos cuidadosamente redigidos.

Primeiro, um exemplo rápido de brinquedo para ilustrar o que acontece quando você faz isso:

bolo de caranguejo --semente 123 caranguejo :: bolo --semente 123

Quando o “bolo de caranguejo” é o único alvo do difusor, obtemos um delicioso aperitivo de frutos do mar empanados.
Quando “caranguejo” e “bolo” são direcionados individualmente, obtemos muitos bolos de pastelaria com cobertura de
caranguejo ou caranguejos com carapaças de bolo de pastelaria.

Você pode se surpreender ao ver que, embora “caranguejo” e “bolo” estivessem separados, não obtivemos um
caranguejo e um bolo ilustrados separadamente, exceto em uma grade. Não interprete o termo “separador rígido” muito
literalmente: ele apenas separa as palavras, não necessariamente os conceitos artísticos resultantes. Os difusores
independentes não conversam entre si, então desde que haja algo identificável como “caranguejo” e algo identificável
como “bolo” ambos ficarão satisfeitos com o resultado.

Esse equívoco fundamental está subjacente a muitos usos indevidos casuais de múltiplas solicitações. As pessoas
ouvem que os prompts são “independentes” e pensam que se quiserem dois caracteres no prompt devem colocar cada
um deles em um multiprompt. Mas como nenhum dos prompts sabe sobre o outro, eles não têm uma orientação geral
de que há várias pessoas no
Machine Translated by Google

cena, e isso torna os dois alvos mais propensos a se fundirem do que em um prompt normal. (Isso pode ser vantajoso
se você estiver tentando gerar criptídeos ou furries). Portanto, em vez de pensar nas solicitações múltiplas como
assuntos distintos, pense nelas mais como sobreposições ou ênfases. Colocamos o conceito de “bolo” em camadas
sobre o conceito de “caranguejo” e então apertamos o botão.

Comece com a maneira mais fácil e intuitiva de usar vários prompts: --no. Apesar de ser uma das palavras mais
poderosas do inglês simples, “não” é muito difícil para MJ prestar atenção pelas mesmas razões que a maioria das
palavras curtas de ligação. A menos que “sem X” seja comum o suficiente no conjunto de dados para chamar muita
atenção (até mesmo o “sem maquiagem” confiável em versões antigas é duvidoso hoje em dia), na maior parte, MJ
não analisará negativos. E é ainda mais desesperador se você quiser tentar negar as coisas por meio de prosa como
“sem”.

O parâmetro --no é na verdade um atalho para colocar todas as coisas depois dele em seu próprio multi-prompt, com
meio peso negativo (::-0.5), significando o que vier depois de --no (ou antes de :: -0,5 no texto) tem um peso
ligeiramente negativo.

Mulher dominicana de 30 anos com cabelo preto encaracolado usando moletom com Mulher dominicana de 30 anos com cabelos pretos cacheados usando moletom com
capuz para baixo, ilustração urbana estilizada --s 50 --seed 30 capuz, ilustração urbana estilizada --sem capuz --s 50 --seed 30

Aqui, MJ não entende o que estamos pedindo no próprio prompt. “Hoodie com capuz para baixo” é uma pergunta
muito abrangente, mesmo se tentarmos agitá-lo solicitando detalhes do cabelo. Mas, ao apegar-nos ao conceito de
ambas as extremidades e dizer “capuz + --sem capuz”, podemos incentivá-lo a mostrar o que queremos.

É uma ferramenta incrivelmente útil; se o seu prompt estiver fazendo algo que você não deseja, você deve aplicá-lo
como o Flex Tape™. Por exemplo, um problema comum com as solicitações de MJ é que pedir
Machine Translated by Google

um “esboço” ou um “desenho” muitas vezes fará com que MJ “quebre a quarta parede” e forneça uma
fotografia de um esboço ou desenho, completo com implementos perdidos e fundo de tela/papel.

deusa soninke wagadu, desenho a lápis de cor --s deusa soninke wagadu, desenho a lápis de cor -
25 --w 50 --semente 5005 sem fotografia --s 25 --w 50 --seed 5005

Simplesmente acrescentando --no photography faz duas coisas salutares: derruba os lápis fotográficos da
sua mesa e também afasta levemente o “esboço a lápis” da fotografia (ainda não é muito “esboçado”; isso
geralmente requer --style raw ).

Esta estratégia de “incitação negativa muda” é muito mais poderosa do que parece à primeira vista, e como
geralmente não pensamos muito sobre o que não estamos solicitando , você pode fazer muito progresso
em uma ideia simplesmente pegue o que você não gosta no primeiro rascunho e adicione-o a um --no.
Texto lixo em seu logotipo? --nenhum texto. Efeito de tela dividida indesejado? --sem tela dividida. Este
processo parece estúpido, mas não consigo enfatizar o suficiente que dá resultados; Eu consegui centauros
(notoriamente teimosos devido ao fato de humanos e cavalos serem tão coerentes) apenas em duas
rodadas disso. Comece com --no photography; observe que tem um cavaleiro, então --sem fotografia, sela,
agora é um cervo, então --sem fotografia, sela, chifres” e de repente você tem centauros genuínos .

Outra área onde --no se destaca é moderar conceitos fortes ao contrário. Como é um atalho para um prompt
negativo de meio peso , ele pode fazer algumas coisas que os prompts afirmativos únicos não conseguem.
Desde o início de MJ, tem sido difícil conseguir um personagem “corpulento” que não seja totalmente gordo,
já que as palavras positivas para isso (rechonchudo, gordinho) tendem a ser usadas como eufemismos e
Machine Translated by Google

não há muita diferença entre eles e “gordura” na verdade. Então, se você quiser um cara “rouco”,
recomendo adicionar antônimos à mensagem negativa.

cara gordinho vestindo moletom da faculdade bebendo um copo de cara vestindo moletom da faculdade bebendo um copo de cerveja
cerveja
--s 200 --semente 1981 --não magro --s 200 --seed 1981

Apesar (ou devido a) seu poder, --no não é gratuito e muitas das desvantagens são universais para
vários prompts. Um refrão comum que você ouvirá entre as pessoas que não gostam de usá-lo é que
ele tende a prejudicar o estilo do prompt. Lembre-se, no exemplo do carro do capítulo 1, mudamos da
estação de arte para a fotografia simplesmente adicionando mais detalhes ao prompt que indicava
diferentes referências. A mesma coisa pode acontecer aqui, só que mais difícil de prever, porque “o
oposto de x” no espaço latente de alta dimensão de MJ significa “a imagem mais diferente possível” e
não o que nós, humanos, concebemos como “oposto”. O espaço latente oposto de “preto” quase
certamente não é “branco”, por exemplo, porque ambos são muito usados para descrever humanos, ou
imagens monocromáticas. (Quando os pesos negativos funcionaram brevemente com prompts de
imagem devido a um bug, os prompts negativos de algumas imagens de uma de minhas personagens
femininas produziram o que pareciam ser fotografias de um catálogo de móveis.)

Portanto, usar --no pode levar sua sugestão artística de volta à fotografia, ou vice-versa, com base nos
caprichos imprevisíveis da máquina que associa seu --no ao seu oposto estilístico. Muitas vezes você
pode corrigir isso adicionando também um “antônimo de estilo” a --no junto com tudo o que você está
tentando negar (por exemplo, adicione “fotografia” se o --no acabar esmagando suas sugestões artísticas
com a fotografia), de modo que a direção estilística de cada multiprompt está mais sincronizada.
Machine Translated by Google

tempo --sem relógio, ampulheta --seed 1200

Além disso, existem algumas distinções que são muito sutis para MJ fazer, e se você tiver algo
muito próximo do mesmo conceito tanto nas instruções positivas quanto nas negativas, o resultado
pode ser barulhento ou sem sentido. (O estilo padrão gosta muito de cervos por algum motivo.)

Então, vamos manter isso em mente e voltar aos multiprompts regulares, reiterando que eles são
difíceis de trabalhar e você só deve quebrá-los quando tiver tentado ao máximo fazê-los funcionar
com palavras e parâmetros puros, como fiz aqui:

rinoceronte antropomórfico – semente 120 Rinoceronte macho antropomórfico com chifres usando luvas de boxe e calção, em pé na
academia de MMA, plano completo, ilustração estilizada, chifre de rinoceronte --s 50 --seed
120
Machine Translated by Google

“Rinoceronte antropomórfico” por si só funciona muito bem, as grades 4/4 têm um chifre. Mas uma vez
que você começa a adicionar mais coisas ao prompt, como figurino, fundo, enquadramento e estilo, MJ
vai 0/4 ao desenhar o chifre, indicando que parte do conceito é muito fraca (PSAs de conservação de
rinocerontes?). Tentei enfraquecer --s e repetir o conceito com “rinoceronte macho com chifres” e “chifre
de rinoceronte” sem sucesso. Mesmo o niji-expressivo não estava me salvando. Então, em vez disso,
vamos fazer vários prompts, enfatizando apenas “chifre de rinoceronte” em vez de repeti-lo no prompt
principal.

Rinoceronte masculino com chifres antropomórficos usando luvas de boxe e chifre de rinoceronte --semente 120
calção, em pé na academia de MMA, plano completo, ilustração estilizada ::
chifre de rinoceronte -
-semente 120

Tenha em mente que mesmo sem nenhum número extra, isso lhe confere inerentemente >50% do peso,
já que também mantivemos uma menção no original. A buzina está (quase sempre) de volta, mas o custo
é óbvio: todos os detalhes do prompt original têm metade da resistência. São menos antropomórficos,
menos estilizados, as luvas e os calções são ignorados, o mais estilizado não tem ambiente de ginástica.

As razões ficam claras quando você olha para o alerta “chifre de rinoceronte” isoladamente. Lembre-se,
MJ está mesclando os dois prompts com peso igual, e “chifre de rinoceronte” por si só é uma grande
ajuda de fotorrealismo (de rinocerontes ou cabeças de rinocerontes montadas) e nada mais em nosso prompt.
E este é um erro leve; um erro comum para iniciantes é pesar esta segunda metade do prompt , pensando
que “chifre de rinoceronte::2” se traduz em algo como “peso duplo”. Mas na verdade se traduz em cerca
de 70% do peso (2/3 mais “rinoceronte macho com chifres” no original).
Machine Translated by Google

Esta independência é também a razão pela qual o multiprompt diz “chifre de rinoceronte” em vez de
apenas “chifre”, caso contrário MJ estaria tentando fundir nossa imagem original com o conceito de um
instrumento de sopro ou algo assim.

Então, o que fazemos? Não podemos simplesmente adicionar o que falta ao outro multiprompt, isso
apenas recriará o mesmo problema dos outros elementos que distraem a buzina. Em vez disso, usamos
um peso leve nesse conceito único para garantir que a ênfase seja mantida estritamente na buzina, mas
não tornando-a tão dominante a ponto de começar a emitir o prompt original.

Rinoceronte masculino com chifres antropomórficos usando luvas de boxe e calção, em pé Rinoceronte antropomórfico masculino usando luvas de boxe, em pé no fundo da academia
na academia de MMA, plano completo, ilustração estilizada :: chifre de rinoceronte::0,5 -- de MMA, ilustração estilizada :: chifre de rinoceronte::0,55 --semente 120
semente 120

Ao adicionar “chifre de rinoceronte” como um multiprompt de meio peso , estamos começando a chegar
a algum lugar. Temos duas trompas respeitáveis nessa grade, ao mesmo tempo que recuperamos muito
da nossa estilização. A partir daqui, há dois tipos de ajuste fino que podemos tentar: empurrar o
multiprompt um pouco mais para cima ou para baixo (eu tentaria 0,4 e 0,6) ou ajustar nossa linguagem
de prompt original para tornar o traje menos frágil. Você pode ver a versão final desta imagem à direita
(um v-roll do prompt original e, infelizmente, os troncos simplesmente não tocavam).

Esses prompts fracionários (que têm vários nomes diferentes: promptlets, controles deslizantes, etc.) são
difíceis de digitar, mas a maneira mais precisa de trabalhar com multiprompts para realizar algo
semelhante a “ponderar” palavras no sentido StableDiffusion, onde você pode simplesmente cercar uma
palavra com algum tipo de colchetes especiais para torná-la mais ou menos importante para o difusor. Se
você quiser aumentar o peso de um determinado conceito em 10%, adicione um único multiprompt, com
Machine Translated by Google

apenas esse conceito, com um peso de ::0,1. Começar com esses tipos de alterações marginais significa que o prompt

com o qual você está trabalhando não será tão significativamente interrompido pela adição de um multiprompt como seria
com --no ou um multi de peso total.

Agora vamos aplicar esse pensamento à tarefa de domesticar o --style raw. Conforme discutido anteriormente, o custo da

maior obediência imediata do estilo bruto é que ele é menos inventivo e, bem, elegante.

Como você provavelmente está usando raw para prompts longos com muitos detalhes, acumular ainda mais sinônimos e
mexer na ordem das palavras não é tão desejável. Em vez disso, a melhor maneira de aprimorá-lo é um multiprompt

dedicado com todas as suas dicas de estilo mais uma ou duas palavras que descrevem o assunto principal (para
sobreposição) e, em seguida, dimensionar esse multiprompt de meio peso para peso total.

elfa negra com pele e cabelo pretos, fêmea humanóide elfa negra com pele negra e

olhos brilhantes, vestindo uma armadura branca brilhante na floresta misteriosa cabelos pretos, olhos brilhantes, vestindo uma armadura branca brilhante
em uma floresta misteriosa
--ar 4:5 --semente 86 --ar 4:5 --style raw --seed 86

Primeiro, a configuração: este lado a lado mostra por que estamos usando o estilo raw em primeiro lugar (assim como a

palavra “humanóide”): porque queremos uma pele negra no estilo elfo escuro real , o mais próximo de #000 como

podemos conseguir. A estilização padrão, com bastante sensatez, tende a interpretar a “pele negra” como um ser humano
de ascendência africana (também é mais provável que desenhe um capacete estranho em vez de orelhas de elfo).

Agora digamos que eu gosto de onde o lado direito está indo, mas quero mudar para um estilo anime. Coloquei isso na

frente do meu prompt para dar mais atenção:


Machine Translated by Google

fêmea humanóide elfa negra estilo anime com pele e cabelo pretos, olhos brilhantes, vestindo fêmea humanóide elfa negra com pele negra e

uma armadura branca brilhante na floresta misteriosa --ar 4: 5 --estilo cru --seed 86 cabelo preto, olhos brilhantes, vestindo uma armadura branca brilhante em uma floresta
misteriosa :: Dark Elf Ranger, estilo anime com sombra plana, animação cel, OVA

captura de tela::0,5

--ar 4:5 --style raw --seed 86

Há algum movimento em direção ao anime, mas é bem leve, definitivamente adjacente à parte “arte conceitual de D&D” do

espaço latente. Então, em vez disso, lancei outro multiprompt de meio peso com “dark elf ranger” mais um monte de dicas

no estilo “faça anime, por favor”. O efeito de estilo é muito mais fiel, mesmo que as orelhas ainda estejam um pouco tensas

(eu provavelmente acrescentaria --sem chifres ou --

sem leme para dar outro empurrão, v5 é estranho com orelhas de elfo).

Aliás, é por isso que recomendo sempre trabalhar com pesos fracionários. Existem muitos modelos de prompt (e pior,

modelos de meta-prompt chatGPT) que incentivam coisas malucas, como pesar coisas como ::12 e ::7. Mas aumentar

partes aleatórias do seu prompt em graus aleatórios como esse torna muito difícil ajustá-lo de maneira controlável. E desde

--no é equivalente a ::-0,5, ele deixa de ter qualquer efeito nessas escalas e força você a fazer aritmética para derivar um peso

de prompt negativo manual aproximadamente equilibrado com metade de seus pesos positivos totais. É um pé no saco

desnecessário quando todos os valores são normalizados no back-end de qualquer maneira (não há diferença entre WordA::16

WordB::4 e WordA:: WordB::0.25).

Tudo isso é perfeitamente aceitável se você for um cara de “descoberta” pouco intencionado e não um cara de “design”

muito intencionado. Eu adoro um bom aviso de gacha tanto quanto qualquer pessoa, é importante fazer avisos bobos e

barulhentos de vez em quando para manter alguma humildade/perspectiva sobre o quão legais eles podem parecer. O que eu tenho
Machine Translated by Google

Espera-se desiludir aqui a noção (novamente, ajudada pelo clickbait do Youtube) de que o multiprompting é de alguma forma mais

preciso, ou a maneira “profissional” de solicitar que lhe dá controle extra. Prompts mais independentes sempre introduzem mais ruído,

mais correlações invisíveis, mais aleatoriedade que podem atrapalhar outras partes do seu prompt. Eles inevitavelmente significam

menos controle.

nem mesmo um v-roll!

E muitas coisas que costumavam exigir que eles em versões mais antigas chegassem ao alcance do seu resultado, agora simplesmente

não o fazem. Você deve usá-los quando forem necessários ao seu conceito e estiver disposto a lutar contra MJ um pouco mais, não

como um padrão.
Machine Translated by Google

PROMOÇÕES DE IMAGEM

Um recurso inexplicavelmente único de MJ, os prompts de imagens permitem que você use uma ou mais
imagens como “inspiração”. Você simplesmente coloca links para imagens no início do prompt, depois
de /imagine e antes das palavras. Você controla sua influência coletiva pelo parâmetro de peso da
imagem: --iw 0,5 para torná-los com metade da força, --iw 2 (o máximo) para dobrá-la.

As imagens podem ser hospedadas no discord, imgur ou em qualquer outro lugar que permita vinculação.
Na primeira vez que você usá-los, MJ abreviará o link, o que pode ser útil se você quiser usar mais de
3-4 imagens hospedadas no discord, onde os links são longos o suficiente para exceder o comprimento
máximo do prompt. (Esses links abreviados são apenas ponteiros. Se a imagem for excluída de onde
quer que esteja hospedada, o link MJ não funcionará.)

Então, o que significa usar uma imagem como “inspiração”? Ao contrário das variações, MJ não faz um
“init” diretamente na imagem. Em vez disso, MJ lê a imagem com seu mecanismo de clipe, traduz-a em
um monte de prompts de texto (em seu próprio idioma interno, não em inglês), amontoa todos esses
prompts de texto em um cubo denso de boullion e joga-o no caldeirão do difusor. .

Nota rápida para os entusiastas que retornam: o peso da imagem não é mais diretamente compensado
pelos pesos multiprompt. Você pode, em vez de usar --iw, pesar imagens individualmente (http://s.mj.run/
something ::0.8 http://s.mj.run/somethingelse ::0.2), mas esses pesos e pesos multiprompt normalize de
forma independente agora.

A solicitação de imagem é basicamente MJ deixando um lado desenhar o que o outro lado descreve por
telefone. (Exceto que, como não conhecemos a linguagem de MJ, ele pode realmente transmitir alguns
detalhes com mais precisão do que seria solicitado por texto!)
Machine Translated by Google

cara alegre, festeiro vestindo camisa havaiana, desenho animado estilizado Fotografia de arquivo da NASA
isolado em fundo preto
(não é uma imagem Midjourney™)

A maneira mais básica de usar prompts de imagem é com o comando /blend, que faz um prompt puro sem
texto com duas ou mais imagens. É idêntico a executar um comando /imagine com imagens + sem texto,
apenas troca a capacidade de especificar parâmetros com a conveniência de fazer upload diretamente, sem
mexer nos menus do botão direito e nas tags de URL. (Muitas vezes executo um /blend primeiro para obter
os URLs curtos e depois /imagine com base no que considero necessário).

https://s.mj.run/JsXV1M8iAeM https://s.mj.run/yBJhPTqP4iY (as duas imagens acima)


Machine Translated by Google

Combinar prompts de imagens sem texto fornecerá uma média de todos os aspectos das imagens que você
enviou. Aqui perdemos alguns detalhes do homem como a camisa havaiana e o lei, acho que porque as
flores não são muito compatíveis com a lua. Ele também é sombreado de forma mais realista. Mas também
aplicou um ligeiro efeito de desenho animado à superfície fotográfica lunar e escureceu-a consideravelmente,
uma vez que o homem estava isolado num fundo preto.

https://s.mj.run/JsXV1M8iAeM https://s.mj.run/yBJhPTqP4iY
desenho animado de um homem vestindo camisa havaiana e lei festejando na lua --iw 2 --style raw

É aqui que entra o prompt de texto; podemos maximizar o peso da imagem (--iw 2) e usar o texto para orientar
MJ sobre quais elementos enfatizar. Agora podemos manter a camisa e o colar do homem e ao mesmo
tempo iluminar um pouco a superfície, lembrando a MJ que é a lua.

Existem algumas regras para imagens usadas em um prompt: você não tem permissão para enviar uma única
imagem como prompt (apenas imagens múltiplas ou imagem única + texto). Isso é reforçado por um scanner
duplicado, que é razoavelmente tolerante, para que você possa facilmente enviar algo como dois v-rolls de
uma única imagem para fazer misturas “únicas” piratas. Menos branda é a digitalização NSFW, que, devido
à sociedade, tende a atingir as mulheres de forma particularmente dura. Quase tudo que tiver tons de pele
suficientes será rejeitado, mesmo que seja apenas decote ou pernas.

O uso mais prático da solicitação de imagens é para maquetes visuais. Como mencionado anteriormente,
mesmo com todas as ferramentas explicadas até agora, existem certos conceitos muito imaginativos para os
quais MJ será frustrantemente ruim em receber instruções. Isto pode ser especialmente o caso quando se
luta contra ideias extremamente coerentes com opiniões fortes sobre como “deveriam” ser. Pegar
Machine Translated by Google

um exemplo recente de prompt-craft: alguém perguntou sobre como gerar a imagem de um cachorro boxer com
uma câmera no lugar da cabeça.

cachorro boxer com cabeça de câmera vintage --sem olhos, nariz, orelhas --s 0 --ar 3:2

Não importa quais palavras ou táticas de alerta eles usassem, com qualquer combinação de parâmetros, qualquer
truque de remix, MJ só geraria uma imagem de um cachorro boxer ao lado de uma câmera, ou na melhor das
hipóteses, usando uma câmera no pescoço. A ideia de um “cachorro boxer” está fortemente associada a certas
características faciais que MJ se sente obrigado a colocar na imagem.

Os prompts de imagem são uma ótima maneira de ajudar a transmitir conceitos como esses, e isso é
especialmente verdadeiro quando o prompt de imagem é em si uma composição de outras saídas do MJ. Então
pedi a MJ que me desse dois contornos de tinta separados em duas instruções separadas: uma para a câmera e
outra para o cachorro.

arte de linha de câmera vintage, contorno de tinta em fundo branco, vetor arte de linha de cachorro boxer, contorno de tinta em
estilizado fundo branco, vetor estilizado

Ambas as imagens componentes sendo contornos em preto e branco as tornam versáteis como modelos de
prompt de imagem (se você não solicitar o contrário, MJ tende a colorir imagens naturalmente de qualquer maneira) e
Machine Translated by Google

como bônus, fácil de combinar no Photoshop, Krita ou Paint.NET. Basta colocar a câmera acima da cabeça
como uma camada “multiplicada” e depois pintar a cabeça do cachorro embaixo dela.

Quero enfatizar novamente que isso não é pintura inicial. Não estamos tentando fazer com que MJ pinte e
crie esse desenho diretamente. Estamos usando esta maquete de imagem para comunicar informações,
especificamente que a câmera está no lugar da cabeça do cachorro e não além dela, o que esperamos
reforçar nosso texto. Como resultado, essas maquetes podem ser bastante rudimentares, já que MJ lerá e
recortará o prompt da imagem em vez de usar seus pixels, de modo que o retoque de nível profissional é
desperdiçado principalmente nisso. Você pode fotografar gerações de MJ, clipart Creative Commons e até
mesmo o MS Paint pode ajudar um pouco.

https://s.mj.run/sZPJuJdDtI0 cachorro boxer com câmera vintage no pescoço --ar 3:2 --s 0 --iw 2

Armado com a imagem da maquete e aumentando o peso da imagem ao máximo, MJ finalmente pega o
que estamos colocando e nos dá uma bela câmera surreal, completa com recursos convenientes,
Machine Translated by Google

uh, alça de pescoço. Ele até respinga um pouco de cor na imagem, já que não solicitamos a continuação da arte de
linha.

Vamos ser um pouco mais abstratos. E se quisermos criar apenas um estilo de prompt de imagem, mas com um novo
assunto? Considere Kuno Veeber, um artista que escolhi aleatoriamente em uma planilha de referência de MJ porque
o nome parece engraçado. A Wikipedia me informa que ele é um pintor a óleo da Estônia e lista seus estilos como
“cubismo”, “construtivismo” e “expressionismo”. Ele é uma entrada negativa na planilha, indicando que seu estilo não
está treinado.

Não são imagens Midjourney™. Obviamente.

Acima, você verá oito pinturas dele que tirei da Wikimedia e do Flickr. Escolhi quatro retratos e quatro naturezas
mortas, com uma variedade de esquemas de cores e temas. A ideia é que essa variedade se anule quando solicitada
em massa, deixando o foco no estilo unificador. Os únicos ajustes que fiz foram cortar molduras e rasgar bordas, já
que não quero que isso acione molduras de desenho do lado de fora.

Agora vamos fazer um teste rápido (--style raw para minimizar quaisquer efeitos do estilo house de MJ) e confirmar a
afirmação da planilha de que seu nome não é forte o suficiente para acionar um estilo distinto:
Machine Translated by Google

mulher na floresta encantada, pintura a óleo de kuno veeber --ar 3:2 --style raw --seed 12345

É uma pintura a óleo, eu acho, mas não parece muito com um restaurante cubista da década de 1920. Não
estamos percebendo nenhuma das formas largas e rostos inexpressivos em seu trabalho. Estou bastante
satisfeito por ele não estar no banco de dados de forma reconhecível. Então, vamos bloquear --seed 12345
aqui para garantir comparações iguais daqui para frente, depois carregar essas oito pinturas como prompts
de imagem com peso padrão e ver o que acontece.

https://s.mj.run/OwisKksWDNQ https://s.mj.run/6Tryle_jbTs https://s.mj.run/9i47mNeALNc https://s.mj.run/QwhQZ7pR0tU https://s.


mj.run/Y-HDCxH30MA https://s.mj.run/f45no3NX6Z8 https://s.mj.run/pPH3uptn6C0 https://s.mj.run/5DO_Huhk710 mulher na floresta
encantada, pintura a óleo de kuno veeber --ar 3:2 --style raw --seed 12345
Machine Translated by Google

Mesmo no padrão --iw, você pode ver uma diferença imediata com os prompts adicionados. As formas são mais
amplas, a figura humana é mais solta e menos definida, e MJ tem ainda mais vibração de pintura a óleo do que antes.
Isso está definitivamente mais próximo do que apenas o nome. E, ao contrário da solicitação da maquete acima, não
fizemos nada por texto ou aumentamos --iw para ajudar.

Isso é intencional; para transferências de estilo, queremos sugestões minimalistas porque muitas tags de gênero irão
“generar” os resultados nesse sentido, e os altos pesos das imagens aqui começarão a sobrecarregar seus assuntos
com elementos das imagens originais. Deixe-me demonstrar isso com duas variações menos bem-sucedidas da ideia:

[as mesmas 8 referências] [as mesmas 8 referências]


mulher na floresta encantada, pintura a óleo de kuno veeber mulher na floresta encantada, pintura a óleo cubista de kuno veeber, construtivismo dos
anos 1920, arte expressionista
--ar 3:2 --style raw --iw 2 --seed 12345
--ar 3:2 --style raw --seed 12345

Dobrar --iw para 2 começa a eliminar a “floresta”, trazendo elementos das imagens de referência, como vários
assuntos e o quarteirão de casas, e não produz realmente uma melhoria correspondente no estilo. Enquanto isso, as
tags de gênero tornam as formas muito mais angulares e precisas do que eram no conjunto original de imagens.
Suspeito que isto se deve ao facto de Picasso ser tão popular e repetido no conjunto de dados que o termo “cubista”
fica sobrecarregado pelos seus exemplos. O padrão com reforço mínimo de texto é a melhor opção aqui.
Machine Translated by Google

[as mesmas 8 referências]


batalha espacial épica de ficção científica, pintura a óleo de kuno veeber --ar 3:2 --style raw --seed 12345

E aqui eu ampliei um pouco mais o conceito original, trazendo um tema completamente diferente de
qualquer coisa que Veeber já pintou; o estilo aparece. Eu sei que “e se as coisas de um cara fossem
anacrônicas” é uma forma básica de usar IA. Mas olhe que pincelada falsa!

Agora vamos verificar a imagem original do aplicativo matador: personagens recorrentes. Existem várias
maneiras de fazer isso: você pode gerar um personagem inteiramente do zero em MJ ou pode tentar
modelar o personagem em uma fotografia (ou fotografias) existente. Antes de passarmos pelo primeiro
fluxo de trabalho, uma rápida discussão para definir as expectativas no segundo: Midjourney não é um
filtro do Instagram, nem um editor de imagens. Não há como dizer “isso, mas apenas mudar uma coisa
específica”.

Isso é especialmente verdadeiro se você solicitar um autorretrato. As pessoas muitas vezes veem outras
pessoas fazendo auto-reproduções aparentemente perfeitas em MJ, mas se estimulam e ficam
insatisfeitas. Embora existam algumas qualidades que MJ considera mais fáceis de reproduzir do que
outras, na maior parte, este é um efeito psicológico. Precisamente porque você vê seu próprio rosto no
espelho todas as manhãs, você está mais propenso a perceber as distorções sutis de MJ em sua própria
autoimagem, em comparação com a selfie de um estranho e a correspondente selfie falsa de MJ.

Para ilustrar os atuais limites teóricos da reprodução facial de MJ, peguei um rosto aleatório de
thispersondoesnotexist e ajustei uma cópia da mesma imagem apenas o suficiente para enganar o filtro
de desduplicação (desculpe, segredos comerciais). Mas mesmo isso não nos dá exatamente o mesmo cara.
Machine Translated by Google

um cara falso /blend desta referência, duas vezes

MJ suaviza o rosto e aplica um controle deslizante de tonalidade virtual na pele rosada (MJ gosta de
pele em um espectro bege-marrom que pode parecer mais com base do que qualquer outra coisa).
Você também notará que o fundo mudou da horizontal para a vertical e as roupas foram ligeiramente
alteradas; a gola em volta do pescoço é larga em vez de plana e forrada de verde brilhante em vez
de amarelo. Embora possamos deixar os rostos semelhantes, o figurino e o cenário, mesmo quando
solicitados, terão problemas de continuidade suficientes para distrair o leitor. Então, para que serve ?

https://s.mj.run/LziAdzXIZA0 Homem de 40 anos, caricatura estilizada de desenho a lápis em fundo branco --iw 0,75 --estilo raw --sem
fotografia, fotorrealista, monocromático
Machine Translated by Google

Em vez de pensar em MJ como um filtro para referências existentes, ajuda pensar nele como um
artista real fazendo riffs de seu personagem. Quanto mais folga você cortar estilisticamente, mais feliz
ficará com o resultado. Lembre-se do capítulo 2 de evitar instruções diretas e reforçar sua imagem, em
vez de referenciá -la diretamente. Coisas como “isto, mas a lápis” ou “a mesma pessoa, não altere”
serão ruídos confusos, e queremos minimizar isso especialmente aqui. Apenas uma breve descrição
(acho que a idade funciona bem para garantir que as coisas não sejam muito suavizadas), suas tags
de estilo positivas e negativas e um peso menor de --iw 0,75 são suficientes para produzir uma
caricatura muito evocativa.

Mas você pode fazer o ruído funcionar para você? Vamos investigar criando um personagem do zero.

hasmik sargsyan, mulher armênia de 38 anos, cabelos pretos grisalhos, fotografia em hasmik sargsyan, mulher armênia de 38 anos, cabelo preto grisalho, fotografia em
close-up em fundo de retrato neutro - semente 2023 close-up em fundo de retrato neutro --sem maquiagem --estilo cru --s 0 --w 5 --seed
2023

Primeiro, uma breve exortação ao realismo e à intencionalidade: a imagem da esquerda é mais bonita,
mas a imagem da direita é melhor. O estilo padrão converge os retratos para um ideal uniforme que é
reforçado cada vez que você usa essa imagem, ainda mais se você começar com ela. Seu personagem
não terá personagem. Muitos Youtubers têm “tutoriais” para criar OCs onde eles sugerem coisas como
“bela jovem” no estilo padrão. Spoiler: praticamente qualquer método funciona com isso, porque todos
parecem iguais! Aqui, eu tenho estilo zero absoluto (-style raw --s 0), mais --sem maquiagem, mais
uma pitada de estranho (o caos também funcionaria aqui), tudo para sair da mesma, dez anos -
aparência de modelo mais jovem do que o solicitado. Se seu personagem é
lindo, você ainda deve solicitar isso em vez de usar o estilo padrão. Então, pelo menos os adjetivos
podem ser influenciados por seus outros detalhes, em vez de um filtro yassify genérico.
Machine Translated by Google

De qualquer forma, você pode ver o barulho que trouxe para a geração: um nome falso, que tirei das 20
principais listas da Armênia, então isso é basicamente chamá-la de “Jane Thompson”. Fiz uma rápida pesquisa
de imagens no Google, para o caso de haver alguma celebridade armênia com esse nome, mas os resultados
da primeira linha eram apenas perfis de aparência diferente no LinkedIn e no Facebook, então nenhuma fonte
deveria dominar aqui. Então você tem o A/S/L e o cabelo, e também especifiquei um --seed, embora
demonstre em breve como isso não é tão útil .

Finalmente, as dicas de enquadramento/fundo são importantes para minimizar detalhes, como cenário ou
figurino, que MJ não consegue acertar de forma consistente. (Eu poderia cortar ainda mais o resultado certo
se a camiseta preta atrapalhar outras roupas.) Queremos apenas a cabeça e quaisquer acessórios acima do
pescoço, como óculos ou piercings, nada mais. Agora temos um prompt de imagem base para Hasmik e
podemos incluí-lo nos prompts subsequentes para invocar novamente seu personagem.
Armados com esta cara, vamos ilustrar os poderes e limitações de --iw.

https://s.mj.run/KGeXTcwehqA hasmik sargsyan - https://s.mj.run/KGeXTcwehqA hasmik sargsyan, rabo de cavalo curto, irritado furioso
estilo bruto --s 0 --iw 2 enfurecido --style raw --s 0 --iw 2

À esquerda você pode ver a imagem substituindo com sucesso quase todos os detalhes do prompt original.
Apenas o nome e a imagem foram suficientes para nos dar a mesma consistência/mistura teórica máxima,
sem A/S/L, sem semente, nada mais necessário. Então, à direita, tentamos fazer algo com isso... e as coisas
não vão tão bem. Tentamos sugerir um penteado e uma expressão facial diferentes, mas o rabo de cavalo
está bagunçado e a emoção de “zangado, furioso, enfurecido” é apenas um rosto levemente azedo (e
nitidamente mais jovem).
Machine Translated by Google

O problema é que o peso da imagem se aplica a tudo. Não apenas as características do seu personagem,
mas também o zoom, o estilo, o figurino e até a expressão do rosto. Se você quiser alterar pelo menos uma
dessas coisas, você deve esperar voltar para pelo menos --iw 1.5, e alterar mais de uma provavelmente
exigirá um valor inferior ao padrão. Este é o valor do “ruído do personagem”, como o nome, A/S/L, etc. Se
quiser levar a imagem para algum lugar, você precisará diminuir o peso, e isso significa que, como nosso
animal da festa da lua como anteriormente, o texto pode ajudar a orientar a interpretação do prompt da
imagem para focar no que é consistente e não no que muda.

https://s.mj.run/KGeXTcwehqUma mulher armênia furiosa de 38 anos, rabo de cavalo https://s.mj.run/KGeXTcwehqA hasmik sargsyan, pianista armênio de 38 anos, usando
curto, fotografia em close, carranca furiosa --sem maquiagem --estilo cru --s 0 vestido vermelho colante, tocando piano de cauda, fotografia de concerto, plano amplo --estilo
--iw 1.5 raw --s 0 --iw 0.75

Aqui, --iw 1.5 mais a restauração de alguns de nossos detalhes ajudou a traduzir mais a expressão de raiva;
ainda é um pouco sutil, mas bom para uma fotografia. Expressões mais estilizadas e exageradas podem
precisar de pesos menores. E podemos descer para --iw 0,75 (que continua sendo meu peso inicial “versátil”;
o padrão normal é um pouco forte demais para a maioria das coisas) para alterar vários aspectos: figurino,
zoom e pose para uma cena de ação.

Se você se lembra que os prompts de imagem eram mais flexíveis em versões mais antigas do MJ, você não
está errado, porque essas versões mais antigas tinham como padrão um peso de 0,25 (além de processar
em uma resolução muito mais baixa). Talvez seja necessário voltar a isso para grandes transições, como
passar de um close-up para uma foto real da cabeça aos pés, ou de fotografias para arte estilizada.
Machine Translated by Google

https://s.mj.run/KGeXTcwehqUm hasmik sorridente https://s.mj.run/KGeXTcwehqUm hasmik sargsyan sorridente, mulher armênia de 38 anos,
vestindo sargsyan, mulher armênia de 38 anos, vestindo vermelho colante vestido de coquetel e sapatos de salto alto, em pé sobre um vestido de
coquetel vermelho justo e sapatos de salto alto, em pé no palco do concerto, iluminação pontual, palco de concertos sony a7, iluminação pontual,
fotografia sony a7, piano de cauda no fundo
fotografia, piano de cauda ao fundo
--ar 9:16 --style raw --s 0 --iw 0,75 --ar 9:16 --style raw --s 0 --iw 0,25

Esse peso mais leve tem outras vantagens; seu sorriso é mais pronunciado na segunda imagem, e com o --iw
reduzido a uma sugestão forte, ela poderia inventar composições interessantes como sua pose em frente ao
piano. Não se preocupe com o fato de o rosto ficar um pouco mais fora do modelo conforme você diminui o
zoom; MJ é inerentemente menos preciso à medida que você diminui o zoom, simplesmente porque há menos
pixels para difundir. (Podemos polir o rosto do modelo no próximo capítulo.)

Geramos muitas fotografias falsas, mas que tal traduzi-las para estilos diferentes? Essas transições são um
pouco mais duras. Eu começaria pelo padrão ou menos, especialmente a partir de fontes fotográficas; há um
efeito de afunilamento onde a transição da foto para uma pintura realista, que você acha que toleraria um --iw
mais alto do que fotos para esboços, na verdade precisa de valores mais baixos para abalar a fotografia. (Isso
não é necessariamente verdade ao passar de fontes não fotográficas para fotografias.)
Machine Translated by Google

https://s.mj.run/KGeXTcwehqUma caricatura estilizada de uma mulher armênia de https://s.mj.run/KGeXTcwehqUm retrato em estilo anime de Hasmik
38 anos, desenho a lápis de cor --sem fotografia, fotorrealista --estilo cru -- Sargsyan, mulher armênia de 38 anos, cabelos pretos grisalhos e
s 25 --w 25 --q 0,5 --iw 0,5 olhos castanhos, fundo simples --niji --s 300 --w 50 --

eu 0,5

https://s.mj.run/YTucGtLq-Jo retrato em óleo sobre tela de uma mulher https://s.mj.run/Z75zOBSrn-o lineart estilizado de uma mulher armênia de 38 anos,
armênia de 38 anos, cabelos pretos grisalhos, pinceladas grossas, pintura estilizada cabelos escuros grisalhos, contorno de tinta monocromática em fundo branco --
--iw 0.75 --s 0 s 0 --q 0,5 --sem cor

Algumas coisas a serem observadas aqui: você pode ter muito menos medo de estilizar quando adota estilos
não fotográficos; Eu uso o estilo raw para os esboços a lápis ainda porque acho que ele suporta melhor as
solicitações negativas, mas os dois últimos são feitos no modo padrão (ainda --s 0 para manter a idade certa),
e para o retrato do anime eu até contei niji para melhorar as coisas (caso contrário, seu personagem acabará
em um vale misterioso de anime fotorrealista no estilo SD).
Os observadores com olhos de águia notarão que, para os dois estilos inferiores, usamos uma variante da
estratégia de maquete anterior, “pré-tratando” os prompts da imagem com um filtro simples do Photoshop
(pincel angular para a pintura, carimbo para o contorno); esta é uma ótima estratégia para transições de estilo
porque permite imagens com pesos mais altos que permanecem mais fiéis à imagem de origem, uma vez que
já fizemos o “trabalho duro” de tirar MJ da fotografia bruta. É também por isso que continua sendo um
Machine Translated by Google

é uma boa ideia manter um “banco” de retratos de seus personagens em vários estilos; dessa forma, você pode
começar com qualquer imagem base que esteja mais próxima do seu destino.

Combinar maquetes e personagens é uma das únicas maneiras viáveis de superar o problema clássico de IA de
tentar colocar dois personagens de aparência diferente na mesma cena. Solicite cada um deles na visualização
de perfil isoladamente, em seguida, remova o fundo e cole-os sobre um adequado. Tal como acontece com o cão-
câmera, essas composições intermediárias podem ser ridiculamente grosseiras, elas só precisam dar um pequeno
impulso à nossa linguagem.

https://s.mj.run/hPitFdUD9Qs homem porto-riquenho de meia-idade com top plano voltado para mulher armênia de meia-idade com cabelos
pretos grisalhos, encontro alegre no deserto, foto ampla, vista de perfil, pintura fosca estilizada, ayyy, conseguimos! --ar 3:2 --iw 0,75

O teatro de marionetes é real agora! É preciso muito trabalho duro por trás da magia. (Ou pelo menos aconteceu
até o próximo capítulo.)
Machine Translated by Google

Vs, Zs e Ps

Exceto pelo truque da maquete, tudo até agora tem sido basicamente instruções únicas. Mas é claro que há
uma quarta dimensão nos prompts: depois da primeira grade, você tem todo um conjunto de botões e
técnicas de encadeamento de prompts disponíveis. (A primeira coisa a fazer é verificar se o modo remix
está ativado. O padrão é dar a você a oportunidade de alterar seu prompt, que você pode simplesmente
recusar se quiser desenvolvê-lo, e um clique extra é muito mais fácil do que alterar os modos.)

Primeiro você tem o clássico botão AI, a variação, que reinicializa o prompt quatro vezes na imagem da
grade que você selecionou, usando-o como base e adicionando uma segunda camada de ruído aleatório
para o motor se re-difundir. Isso é diferente do prompt de imagem e mais semelhante ao img2img. MJ, no
estilo clássico, não oferece o controle deslizante de ruído diretamente, apenas botões diferenciados:
variação “sutil” para ruído baixo, variação “forte” para ruído alto e variação “regional” para ruído direcionado.
Vamos começar com variações sutis:

Teclado gamer RGB, fotografia


aérea do produto, isolada em
preto

plano de fundo, layout


QWERTY ANSI de
104 teclas --ar 3:1

12 variações profundas

Variações sutis são ótimas para desenvolver pequenas coisas, como corrigir as mãos ou esperar que uma
peça de roupa fique um pouco mais sensata. Eles também são a opção de renderização mais barata e mais
rápida, consumindo quase tão pouca GPU quanto um prompt de um quarto de qualidade. Não é um mau
negócio, dado o número de solicitações de MJ que apresentam resultados “quase perfeitos, mas X”. 12
variações equivalem a cerca de 3 novas grades, mas de forma alguma teríamos obtido um primeiro resultado
tão bom ao executá-lo 3x quanto aquele refinado a partir de variações sutis. Temos a quantidade certa de chaves,
Machine Translated by Google

eles estão todos moldados corretamente e quase todos no lugar certo (a linha de funções recusou-se teimosamente
a agrupar corretamente). Até as letras maiúsculas estão corretas, embora as coisas fiquem incompletas nas teclas
externas e no teclado numérico, e o LED da barra de espaço tenha quebrado.

águia feliz segurando uma bola de futebol, mascote estilizado lineart --estilo
1 variação sutil
cru --sem fotografia --q 0,5

No entanto, como variações sutis mantêm intacto o mapa de profundidade do prompt original, há algumas coisas que
elas terão dificuldade em mudar. Erros que ocupam uma parte significativa da imagem (que envolveriam o redesenho
de mais de 5% da área total) muitas vezes persistirão mesmo através de diversas variações sutis. Há muitas coisas
que não gosto na primeira imagem lá em cima. O rosto da águia parece bobo. Ele tem asas de garra. A bola de
futebol é azul. A coleira é estranha. Nenhuma dessas coisas é fixada consistentemente por uma variação sutil.

1 variação forte U2
Machine Translated by Google

Uma forte variação, no entanto, esclarece tudo isso. Agora ele tem uma expressão melhor, asas no lugar das
mãos, uma bola de futebol ab/w e aquele estranho colarinho rasgado foi transformado em uma camisa
adequada. Você pode pensar em variações fortes como uma espécie de prompt de superimagem ou um botão
de “embaralhamento” para os componentes de sua imagem. O conteúdo, o estilo e o esquema de cores
primárias da imagem permanecerão, mas suas localizações, ângulos, orientações e até mesmo algumas
cores secundárias poderão mudar livremente.

Mas e se você tiver uma grade absolutamente perfeita, exceto por um erro visível que seja grande o suficiente
para persistir mesmo após uma forte variação? É quando você recorre à arma mais nova, a variação regional
(também conhecida como pintura interna). Clicar aqui abrirá uma GUI que permite destacar as partes da
imagem que você deseja regenerar.

pixel art de naga snakelady híbrido, cauda longa, sprite retrô de RPG
de 8 bits em fundo branco --ar 4:3 --niji --estilo expressivo --s 50 --w 50 -- 1 variação regional
sem caligrafia

Aqui, niji expressive nos forneceu um excelente arranjo de pixels, mas deixou nossa fera com um pé espúrio.
A variação sutil não fez nada, enquanto a variação forte atrapalhou nossa boa sorte ao separar o humano e a
cobra em personagens separados. Então, simplesmente destaquei o pé e cliquei nele.

Tenha em mente que a variação da região causa algumas mudanças quase imperceptíveis nas regiões não variadas. Eu não hesitaria em

recomendar spam sutil/forte em um prompt de “fechamento”, mas para região, eu só o usaria quando houvesse um erro claro e facilmente

delineado. É melhor na subtração do que na adição.


Machine Translated by Google

esfinge de quartzo preto, julgue meu voto:: quartzo 1 variação regional


transparente::0,5 --style raw

Uma razão para isso é que a variação regional não preserva a perspectiva e o estilo. Se você tentar usá-
lo para melhorar um rosto ou um gesto com a mão, poderá obter um rosto de desenho animado em uma
fotografia ou vice-versa, ou uma mão gigante/encolhida posicionada em um ângulo muito estranho.
Em comparação com a maioria das outras IAs de imagem, a pintura interna do MJ não obtém muitas
informações dos pixels circundantes.

Bem, eu disse para ativar o remix no início deste capítulo e, até agora, não o usamos alterando um
prompt. (O modo Remix fará variações automaticamente se não detectar nenhuma alteração.)
Fazer isso mudará inerentemente algumas coisas, independentemente do que você digitar.
Machine Translated by Google

algo incrível – ar 4:5 – 1 variação forte de V1 1 remix forte de V1


niji --estilo original --c 100
(-c 75)

Primeira coisa a notar: as variações não reconsideram seus parâmetros, mas os remixes sim. Tivemos um
prompt de caos máximo (palavras vagas & --c 100) na grade original. As variações fortes, porém, preservam em
sua maioria os resultados da primeira grade: a menina, o violão, a pose, o enquadramento. Eles estão tão
distantes quanto o exemplo da águia do futebol, que não teve caos. Contanto que você não altere o prompt, o
caos (assim como quaisquer outros parâmetros [e prompts de imagem!]) deixará de ter efeito. Mas mudar
qualquer coisa no prompt, até mesmo reduzir o caos para --c 75, faz com que Midjourney olhe para todas essas
coisas novamente. E como nosso prompt em si não tinha muita orientação, atualizar seu caos é suficiente para
afastar os resultados novamente, de modo que sua única consistência seja “um retrato legal de uma garota”.

Selecionei intencionalmente uma demonstração dramática acima. Remixes sutis, por outro lado, silenciarão
inerentemente qualquer impacto causado pela mudança de prompts. Mas isso também pode ser útil, como neste
fluxo de trabalho alternativo de “pintura remix” para personagens que solicitam imagens:

ficha de personagem, reviravolta de corpo inteiro, mulher madura 1 remix sutil, adicionando
de cabelos escuros usando vestido vermelho colante, fundo branco -- https://s.mj.run/uxoaN0X4l9Y
niji --ar 3:4

Foi um grande pé no saco conseguir dar uma olhada completa no nosso pianista armênio mais cedo. Tivemos
que diminuir o peso da imagem para 0,25 para fazer isso em um único prompt, o que levou
Machine Translated by Google

a muitas compensações em relação à qualidade e orientação imediata. Muito mais fácil é esse processo de duas
etapas: basta gerar primeiro um modelo genérico, sem dizer nada mais sobre o rosto do que a tez clara ou escura ou
talvez a cor do cabelo. Em seguida, faça um remix sutil apenas com o rosto da personagem (o rosto estilo anime que
fizemos para ela anteriormente, cortado um pouco mais para excluir roupas e fundo) injetado como um prompt de
imagem, e ele irá “pintar”.

Isso tem suas próprias desvantagens: você pode ver que a imagem como um todo ficou um pouco “borrada”.
A remixagem sutil, especialmente, tende a “perturbar” os pixels de uma forma que muitas vezes pode ser mitigada
fazendo algumas variações extras após a remixagem, o que permite que a imagem “se acomode” um pouco em seu
novo formato. O fluxo de trabalho de injeção de remix poderia facilmente ter recebido seu próprio capítulo, mas em
vez disso vou vincular este tutorial escandalosamente detalhado por Vic Gnarly, que não vejo necessidade de
recapitular mais. (Os fluxos de trabalho de animação [!] estão um pouco fora do escopo deste manual.)

Isso também permite “estabilizar” remixes que estão muito fora da reserva, copiando a própria imagem original e
colocando-a na mixagem. Usar isso mais o parâmetro --iw o transforma em um método pirata de limitar a força do
remix (peso máximo, remix mais fraco, embora obviamente o efeito seja limitado se houver muitos prompts de imagem
existentes).

Eu mencionei que você pode alterar qualquer parâmetro em um remix?

"NÃO INVENTE O TORMENTO 6-7 variações (em --v 2) remixar para remix regional para
NEXUS":: capa frontal do
--v 5.2 --style bruto --niji --estilo expressivo
romance clássico de ficção científica
--com 5:8 --s 200 --w 200
"NÃO INVENTE O TORMENTO
--c 100 --ar 5:8
NEXO" --v 2 --ar 5:8

Lembra como o gráfico legado mencionado nas versões 2 e 3 do mecanismo é realmente bom na resolução de texto
com múltiplas solicitações? Com remixes sutis e regionais, você consegue o melhor dos dois mundos! O fluxo de
trabalho aqui:
Machine Translated by Google

1. Multiprompt seu texto na versão 2 ou 3 usando o modelo acima (use --s 625 se estiver usando --v 3). Não se
preocupe muito com a arte parecer piegas ou mudar drasticamente; estamos aqui pelas palavras.

2. Varie-os (essas versões são apenas sutis, mas como têm apenas 256 pixels, isso
faz muito mais pelo texto) até que as letras sejam resolvidas.
3. Remix para --v 5.2 --style raw ou --niji --style cute. Ambos são propensos a texto e têm maior probabilidade
de preservar as letras em um remix.
4. Em seguida, remix regionalmente toda a área ao redor do texto, para qualquer versão que você achar
esteticamente atraente, e o texto provoca o caos ou algumas palavras-chave artísticas.

Este é um processo meticuloso e de esforço máximo de quatro etapas para precisar de frases inteiras (“a rápida
raposa marrom salta sobre o cachorro preguiçoso” é possível se você for teimoso o suficiente). Existem alternativas
mais curtas para quem deseja apenas uma palavra ou algumas letras. Em primeiro lugar, se o seu texto não
funcionar bem como uma ilha quadrada na tela de variação regional (porque está em um ângulo ou integrado de
alguma forma com um objeto), você pode começar na versão atual, mergulhar na versão antiga apenas para o
texto e, em seguida, mergulhe novamente:

Texto "MVB":: Texto "MVB" em 1 remix de V2 para 1 remix de V2 de volta para


capacete de futebol, contorno em tinta --v 3 --s 625 --em 5.2
monocromática em fundo branco --v 5.2 --q 0.5 --
style raw

Não poderíamos começar nas versões mais antigas aqui, porque o capacete ficaria péssimo. Mas ao pegar o
capacete primeiro, mergulhar na versão 3 para um remix e depois retornar ao ano atual, encontramos as letras
corretas. O capacete está um pouco amassado pela viagem (você pode ver que a máscara está um pouco irregular
e pegou um pouco de besteira), mas as letras são grandes o suficiente para que possamos executar
confortavelmente mais algumas variações sutis para limpá-lo, se necessário.

E, em alguns casos, não é necessário mudar para versões mais antigas. Se a v5 raw puder colocar uma ou duas
letras da palavra desejada, a coisa mais fácil a fazer é remixar regionalmente a letra errada e substituir todo o
prompt apenas pela letra correta. Se você estiver substituindo duas letras,
Machine Translated by Google

Recomendo repetir as letras em multiprompt com e sem aspas. Se você estiver substituindo três letras,
considere remixar para uma versão mais antiga. As versões atuais só podem ser confiáveis para obter a
primeira e a última letra de um prompt corretas.

cabana:: cabana com texto "CABANA" em palha


1 remix de região para
pavilhão, piscina, fotografia de deck ao ar livre - estilo cru B --estilo bruto

A injeção de imagens e a manipulação de parâmetros são espetáculos secundários; a coisa mais poderosa
que você pode fazer é remixar as próprias palavras do prompt. O conceito geral por trás disso é “andaime”,
onde você começa com um prompt para uma primeira ideia ampla e, em seguida, explora a composição
resultante para chegar a uma segunda ideia mais específica (semelhante aos modelos de prompt de imagem).

https://s.mj.run/V2wd7oWqmSU arte de linha de louva-a-deus, isolada em remix sutil para


fundo branco, contorno de tinta, arte vetorial --ar 3:2 --style raw
louva-a-deus mecânico, steampunk, biopunk --ar 3:2 --não é chato
--s 0 -
-iw 0,75 --sem cor

Aqui está um típico caso de uso de remix sutil. MJ não tinha uma compreensão sólida o suficiente de um
louva-a-deus para conseguir um louva-a-deus normal sem a ajuda de uma imagem (a maior parte do que foi
gerado foram mosquitos ou grilos). Mas como o prompt da imagem era um louva-a-deus real, também seria
Machine Translated by Google

estar lutando contra o tema steampunk. Em vez de pescar meticulosamente o equilíbrio exato de forças
necessárias para o resultado em um único prompt, apenas acionei o louva-a-deus primeiro, depois
abandonei o prompt da imagem e remixei com dicas steampunk em segundo lugar.

pintura abstrata em aquarela, lavagem com tinta, cores profundas -- remix forte para
estilo cru --s 50 --w 25 --ar 7:8 retrato abstrato em aquarela de mulher com corte bob e óculos, nanquim, cores profundas
--estilo cru --s 50 --w 25 --ar 7:8

Para remixes fortes, não faz muito sentido mudar o prompt no atacado, pois isso resultará no que poderia
muito bem ser uma imagem totalmente nova. Para estes, é melhor manter tudo o que você gosta na
imagem idêntico e apenas substituir ou adicionar coisas como deseja que apareçam ou percam/recebam
ênfase. Um dos remixes fortes mais comuns que faço é adicionar reforço multiprompt a algo em que gosto
muito da vibração e do estilo, mas o assunto não está certo porque alguns detalhes foram abafados.

Para remixes regionais, especialmente ao tentar adicionar coisas em vez de subtraí-las, é importante dar
a MJ pelo menos algumas dicas rápidas sobre a perspectiva ou zoom das coisas que estão sendo
adicionadas em relação à imagem inteira. Portanto, se você estiver tentando adicionar detalhes em uma
pequena parte da imagem, ter algo como “distante” ou “amplo” ou mesmo “minúsculo” pode ajudar a
orientá-lo no sentido de manter uma escala consistente.
Machine Translated by Google

monstro quiróptero de duas cabeças, fantasia remix regional para


ilustração – ar 4:3 cavaleiros distantes – ar 4:3

Gostei do monstro morcego, invocado por meio de aula científica e do qualificador “ilustração de fantasia”,
conforme demonstrado no capítulo 2. Depois remixei apenas a parte superior da imagem e substituí todo
o prompt por “cavaleiros distantes”, o que foi suficiente para garantir eles apareceram, e não estavam
voltados aleatoriamente para o lado ou algo assim (o que poderia ter acontecido se eu não tivesse
adicionado “distante”, já que a perspectiva mais comum do “piloto” é uma vista de perfil lateral).

Joe Biden e Joe Biden fazem comentários sobre o discurso sobre o remix regional para
jardim de rosas da Casa Branca, fotografia de arquivo --ar 5:3 --style anime hatsune miku faz discurso --ar 5:3 --niji --s 250
raw

Outra coisa a ser observada sobre o remix de região é que ele pode ajudar a negar as partes do primeiro
prompt que você não deseja manter no segundo prompt. O exemplo clássico aqui é querer gerar duas
pessoas diferentes. Aqui, usei-o para misturar anime e live-action, o que normalmente é muito difícil de
fazer. Aqui, Miku estava aparecendo como um cosplay ruim ou CGI horrível até que eu coloquei o estilo
niji na mistura.

Agora vamos falar sobre zoom, que é muito menos complicado. Existem três botões: diminuir o zoom em
1,5x, diminuir o zoom em 2x e zoom personalizado, que leva você a uma janela de edição imediata. Os
dois primeiros são bastante autoexplicativos e provavelmente não preciso de um exemplo aqui.
Machine Translated by Google

É uma maneira decente de obter algo como “uma tela de TV mostrando uma imagem dentro de outra
imagem”, primeiro solicitando os detalhes internos e depois remixando os detalhes externos no zoom.

O zoom personalizado tem dois utilitários que provavelmente não são óbvios. A primeira, e mais direta, é
executar “--zoom 1”, MJ irá regenerar a borda externa da imagem.
Isso é inestimável se você tiver barras pretas acidentais que possam interferir no zoom ou na panorâmica,
ou apenas fazer a imagem parecer ruim.

A segunda é que alterando a proporção para algo mais alto ou mais largo que o inicial, você pode fazer um --
zoom 1 seletivo que expande a imagem apenas horizontalmente ou apenas verticalmente

lineart --s 500 --w 200 --c 100 zoom personalizado para
--ar 2:3 --niji lineart --s 500 --w 200 --c 100
--ar 3:2 --niji --zoom 1

Você pode alterar a proporção diretamente, em um remix, mas como não há novos dados de imagem sendo
gerados para a imagem, isso irá esmagá-la (sutil) ou recompô-la drasticamente (forte). O zoom personalizado
é a maneira mais fácil e consistente de passar de widescreen para retrato e vice-versa. Eu não fui muito
exigente com o ambiente aqui, já que este foi um alerta de caos, mas as mesmas coisas se aplicam aqui e
em remixes regionais se você quiser que suas novas porções de imagem tenham uma aparência diferente
das originais.
Machine Translated by Google

Duas considerações a serem lembradas sobre os zooms são que eles não adicionam novos pixels à
imagem e têm tendência a vinhetar. Aqueles dos quais você diminui o zoom são reduzidos, mas inalterados.
Portanto, diminuir o zoom de um único rosto ainda tende a fazer com que o rosto pareça “colado”, porque
parecerá muito mais detalhado do que os detalhes correspondentes de seu tamanho recém-gerados. Você
pode neutralizar um pouco a vinheta adicionando palavras como “brilhante” ou “claro” ou “vívido” em seu
prompt enquanto diminui o zoom.

A única maneira de adicionar novos pixels ao seu prompt e torná-lo realmente maior do que era é deslocar
ou estender a tela em uma direção. No entanto, isso irá bloquear você das opções de remix até que você
faça um zoom personalizado (ou use o botão “fazer quadrado”, que é apenas um atalho para um zoom
personalizado --ar 1:1) para reduzir a contagem total de pixels para um Padrão MJ. Portanto, o movimento
panorâmico geralmente deve ser a última coisa a ser feita, pois qualquer outra ação exigirá a perda de pixels.

vampiro gótico pálido com cabelos brancos e vestido preto com babados desloque-se para
olhando para cima em um campo de rosas metálicas folheadas a ouro sob o vampiro gótico pálido com cabelo branco e vestido preto com babados
céu negro da meia-noite, panorâmico amplo --niji --ar 3:2 --s 400 --w 10 --sem olhando para a lua vermelha de sangue em um campo de flores de
vermelho, lua folhas metálicas, panorâmico amplo -
niji --s 400 --w 10 --sem amarelo

Aqui está uma panela onde eu queria duas coisas contra os arquétipos: rosas douradas e uma lua
vermelha. Qualquer tentativa de singleton provocando isso inevitavelmente lhe dará uma lua amarelada e
um campo de flores vermelhas, a atração da cor é muito forte. Portanto, gerei a parte inferior primeiro, o
que me permitiu focar apenas em quebrar o arquétipo da rosa, especificando “folha dourada” e “--sem
vermelho” com a lua negada também, já que eu não queria obter uma antes de ativá-la. .
Machine Translated by Google

Em seguida, a bandeja superior negou o amarelo (mudando para simplesmente “metálico”) enquanto
gerava uma lua vermelha de sangue. E como usamos uma panorâmica, isso nos deu uma resolução
maior (1344px2 vs 1024px2 ) do que teríamos obtido diretamente em um quadrado e fazendo remixes regionais no
lua.

Entre remixagem, zooms personalizados e panorâmica, é possível aplicar força bruta em praticamente
qualquer composição, assunto e detalhes que você desejar no Midjourney. A questão não é se você
pode, mas apenas se vale a pena. (Fazer tudo isso em uma linha de comando não é o ideal, e não
consigo imaginar o quão estranho isso deve parecer para as pessoas que não aprenderam computadores
em um prompt do DOS.) Porém, uma vez que haja um site, essas coisas podem todas ser feito com
controles deslizantes e a mesma seleção do mouse que as variações regionais podem, espero que
muitas das coisas neste guia que atualmente exigem muito esforço se tornem triviais.
Machine Translated by Google

ADENDO HASTY MJ 6

Como é tradição, não quero reescrever todo este guia para uma versão par de MJ, especialmente quando ainda é um alfa, então

aqui está uma série desconexa de notas e observações que você deve tomar com ainda mais sal do que veio antes:

A mudança mais importante é que MJ finalmente escapou dos laços rudes do CLIP. O comprimento máximo do prompt agora

está em torno de 350 palavras, e os prompts agora diferenciam maiúsculas de minúsculas. Ninguém pode mais dizer

exatamente onde estão as quebras do token, então o comprimento exato é uma estimativa.

E melhor ainda, o comprimento é realmente utilizável! MJ recuperou sua capacidade de captar dicas de estilo mais profundamente

em um prompt, então você deve precisar carregá-lo antecipadamente com menos frequência do que na v5 (esta ainda é uma

solução de problemas válida se o estilo do seu prompt apresentar dificuldades).

Como resultado do aumento do comprimento, MJ é mais tolerante com a prosa com comprimento de parágrafo. Ainda não vi

nenhuma evidência segura de que seja melhor do que frases simples e concisas, mas certamente não é fatal como na v5 e qual

estilo de sugestão você prefere é muito mais uma questão de gosto do que era antes. Eu ainda não recomendaria os prompts do

chatGPT, porque o chatGPT ainda tende a carregar suas frases completas com palavras de humor visualmente sem sentido.

Em vez disso, use esse comprimento extra de prompt para direcionar a cena. Em particular, você desejará especificar as posições

relativas dos itens ao configurar uma cena com dois assuntos. MJ realmente recompensa imaginar algo em sua cabeça primeiro

e depois avisá-lo. Direções como “à esquerda/direita” mudaram de totalmente ineficazes para mais ou menos obrigatórias

se você quiser ver o aumento do controle de composição.

Em geral, você ainda deseja avisar de maneira concisa ao atribuir propriedades a diferentes elementos em uma cena. Referenciar

algo nas primeiras palavras muito mais tarde no prompt ainda tende a esmagar o que está no meio, então eu ainda recomendo

fazer todos os detalhes de uma vez e certificar-se de que a distância entre os detalhes e o assunto ao qual eles se aplicam

é de 0 a 2 palavras no máximo.

Fazer repetições simples da mesma palavra quase não tem efeito agora, mas empilhar vários sinônimos em um prompt ainda

é uma boa meta.


Machine Translated by Google

As aspas duplas agora são um sinal de texto com codificação suave. Escrever algo "aqui" aumenta muito a
probabilidade de MJ soletrar como texto (lembre-se de que diferencia maiúsculas de minúsculas). Acredito que isso seja
suave, ou seja, a partir de uma melhor padronização do conjunto de dados durante o treinamento e não de um comando rígido como ::
porque você ainda receberá palavras ocasionalmente sem elas (geralmente solicitando sinais de néon ou similares) e às
vezes com estilização alta, mesmo "aspas duplas" não conseguirão fazer as coisas aparecerem até que o prompt receba
uma dica extra (geralmente a palavra "texto" perto deles, como o texto do título “IT PROMPTS AT NIGHT”).

A meta multiprompt do verão de 2022 para texto está, finalmente, muito obsoleta e você deve evitá-la. A independência
dos multiprompts agora funciona contra você, gerando texto duplicado. No entanto, notei (com pouca confiança) uma
melhoria ao repetir a palavra entre aspas duplas e simples em um único prompt.

Ambos os modos, mas especialmente o raw, têm muito menos probabilidade de renderizar texto acidentalmente ,
portanto, embora o chatGPT possa não ser bom para construção deliberada, ele proporciona prompts decentes baseados
em vibrações. (Se você deseja obter resultados baseados em vibrações a partir de entradas mais curtas e preguiçosas,
uma pequena dose de --w ou --c pode ser mais vital do que antes para animar as coisas).

Digo “pequeno” porque o estranho em particular foi superestimado nesta versão de MJ.
Há muito pouca diferença entre --w 100 e --w 3000, e eles superarão quaisquer valores de --s ou --c. Até que alguém

acorde e perceba que isso é muito estúpido, eu manteria os valores na faixa de um dígito para começar e aumentar muito
lentamente.

O “centro de massa” entre o estilo bruto e o padrão está muito mais próximo. (Isso pode mudar em atualizações futuras.)
Na v5, voidprompting em raw forneceu fotos do produto; voidprompting v6 raw oferece basicamente as mesmas garotas
bonitas que você obtém por padrão, apenas fotografias dessaturadas com fundos simples versus pinturas épicas de
peixes voadores. Há também uma mudança universal de volta para texturas e salpicos pictóricos, mais semelhante
ao padrão v4 do que v5, embora muito mais fácil de passar, então você não notará muito, a menos que faça prompts
minimalistas e sem estilo.

Os multiprompts "funcionam de maneira diferente", embora nenhuma elaboração tenha sido oferecida e os exemplos
fundamentais no capítulo ainda funcionem, embora muitos possam não ser mais necessários.
Em particular, os estilos de multiprompting ainda são uma boa meta para quando o estilo imediato não é suficiente para
superar um assunto extensivamente descrito, e os prompts negativos ainda são necessários para resolver as coisas em
muitos casos (a prosa "não" funciona em situações um pouco mais amplas, mas principalmente, você ainda deseja evitar
dizer à IA para não pensar em elefantes cor de rosa).
Machine Translated by Google

Multiprompts negativos também são muito mais poderosos. Embora --no ainda seja um bom atalho, um
efeito posterior da compreensão do prompt é que muitas vezes você pode conseguir o que deseja com
um peso negativo mais leve, o que, por sua vez, terá efeitos muito menos drásticos no restante do
seu prompt. Eu começaria com :: óculos::-0.1 para algo como tirar os óculos de um personagem que MJ
acha que deveria usá-los por qualquer motivo. Não comece com --no
a menos que seja algo que você saiba (risos), terá um forte fator de confusão.

Os prompts de imagem agora têm no máximo --iw 3, embora em todos os prompts de teste que executei até
agora, as diferenças entre --iw 2 e --iw 3 sejam tão mínimas que eu provavelmente não diria qual é qual em
um escolha cega, então a escala parece bastante semelhante à v5. As imagens ainda podem anular seu
prompt facilmente por padrão, então continuo seguindo minha recomendação de -
iw 0,75 como ponto ideal inicial para prompts de imagem.

Remixes gerais parecem ter aumentado a partir da v5. Remixes sutis são um pouco menos sutis (pense
em mais andaimes, menos dedos destruidores) e remixes fortes podem ser alterados quase no atacado, ao
mesmo tempo que aderem surpreendentemente bem ao estilo original do prompt. Se você gosta do estilo
de alguma coisa, troque todo o conteúdo por outra coisa em um remix forte e provavelmente será muito
mais portátil do que as versões anteriores. Além disso, a remixagem forte para uma nova proporção de
aspecto não estica mais a imagem estupidamente e agora pode recompô-la sem precisar da etapa
intermediária do zoom personalizado (especialmente se ajudado junto com --c).

No entanto, a variação regional (pintura) e a panorâmica são um tanto nerfadas, em termos de sua
capacidade de alterar radicalmente a imagem fora dos parâmetros normais de estímulo. O exemplo do
último capítulo em que remixei “cavaleiros distantes” em um bastão de duas cabeças agora exige que você
remixe para “cavaleiros distantes em cima de um bastão de duas cabeças” para dar contexto à nova direção.

Você também pode gostar