Prompt de Imagem: A Arte de Pedir Direito
Quem usa modelos de imagem aprende rápido uma verdade desconfortável: o mesmo modelo que produz uma obra-prima na sua mão produz uma bagunça na do vizinho. A variável é o prompt — a descrição que você fornece. Não há feitiço secreto, mas há estrutura, e dominá-la transforma resultados aleatórios em escolhas deliberadas.
A anatomia de um bom prompt
Um prompt eficaz raramente é uma frase solta. Pense nele como uma ficha técnica organizada em camadas, do essencial ao acessório. As quatro camadas que mais importam:
- Sujeito: o que está na imagem. Seja específico — "uma raposa ruiva dormindo" rende mais que "um animal".
- Estilo: a linguagem visual — fotografia, aquarela, pintura a óleo, arte digital, gravura.
- Composição: enquadramento e arranjo — close, plano aberto, vista de cima, regra dos terços.
- Iluminação: talvez o ingrediente mais subestimado — luz de fim de tarde, contraluz, néon, luz suave de estúdio.
A ordem ajuda: comece pelo sujeito, depois acrescente estilo, composição e luz. O modelo tende a dar mais peso ao que vem primeiro.
Por que sujeito, estilo, composição e iluminação
Essas quatro dimensões cobrem as decisões que um fotógrafo ou ilustrador real tomaria. Descrever só o sujeito é como pedir uma foto sem dizer se é retrato ou paisagem, de dia ou de noite. Cada camada que você adiciona retira graus de aleatoriedade — você troca a sorte por intenção.
- Sujeito: quem ou o quê, com detalhes concretos.
- Estilo: meio e referência visual.
- Composição: ângulo, enquadramento, profundidade.
- Iluminação: direção, qualidade e cor da luz.
- Técnico (opcional): termos como
"lente 85mm"ou"alta nitidez"afinam o resultado.
O prompt negativo
Muitas ferramentas oferecem um prompt negativo: a lista do que você não quer. É onde se combatem os defeitos clássicos — "mãos deformadas, texto, marca d'água, baixa resolução". Pensar pelo avesso costuma ser mais eficaz que empilhar adjetivos positivos. Em vez de implorar por "rosto perfeito", proíba "rosto distorcido".
Peso de termos e ênfase
Algumas interfaces permitem dar peso a palavras, indicando o quanto cada uma deve influenciar a imagem. A sintaxe varia entre ferramentas, mas a lógica é universal: reforce o que é central, suavize o que é secundário. Cuidado, porém — exagerar no peso de um termo pode degradar o resto da composição. É um botão de volume, não um interruptor.
Iteração: o segredo que ninguém vende
O maior mito é o do prompt perfeito de primeira. A prática real é iterativa: gere, observe o que saiu errado, ajuste uma variável, gere de novo. Mude um elemento por vez — se alterar tudo a cada rodada, você nunca saberá o que funcionou. Fixar o seed ajuda a isolar o efeito de cada mudança. Bons resultados são construídos, não sorteados.
Mitos que atrapalham
- "Quanto mais palavras, melhor." Falso. Prompts inchados confundem o modelo; a precisão vence o volume.
- "Existe a palavra mágica." Termos como "obra-prima" ou "8K" ajudam pouco isoladamente — estrutura pesa mais que clichês.
- "O mesmo prompt funciona em qualquer modelo." Não. Cada modelo responde de um jeito; o que brilha num pode falhar noutro.
No fim, escrever prompts se parece com dirigir uma sessão de fotos: você não controla cada pixel, mas, com vocabulário e método, controla a direção. O resto é repetição inteligente.
Perguntas Frequentes
Preciso escrever prompts em inglês?
Muitos modelos foram treinados predominantemente em descrições em inglês e respondem melhor nesse idioma, sobretudo para termos de estilo. Modelos mais recentes lidam bem com português, mas vale testar — às vezes traduzir os termos técnicos melhora o resultado.
Por que o mesmo prompt dá imagens diferentes?
Porque o ponto de partida é um ruído aleatório, definido pelo seed. Sem fixar o seed, cada geração parte de um ruído distinto e produz variações. Isso é uma vantagem para explorar opções.
Como conserto mãos e dedos deformados?
É uma fraqueza conhecida dos modelos. Ajuda usar prompt negativo contra deformações, gerar várias opções e escolher a melhor, ou corrigir a região específica com edição localizada (inpainting). Modelos mais novos erram bem menos.
Vale copiar prompts prontos da internet?
Como ponto de partida e aprendizado, sim. Mas eles foram afinados para um modelo e um objetivo específicos. Use-os para entender a estrutura e então adapte ao seu caso — copiar cegamente raramente reproduz o resultado original.
Acompanhe Geração de Imagem no radar
Veja os papers, modelos e datasets de Geração de Imagem em alta agora no Hugging Face.
Abrir radar de Geração de Imagem