artigo · Geração de Imagem

Como Funciona a Difusão (Sem Matemática)

A grande sacada dos modelos de imagem modernos é quase contraintuitiva: para criar uma imagem nova, eles aprendem primeiro a destruí-la. Entender essa inversão é entender toda a difusão.

Imagine uma fotografia nítida. Agora jogue um pouco de chuvisco sobre ela — aquela estática de TV antiga. Repita até a imagem sumir por completo numa tela de ruído. Os modelos de difusão aprendem a fazer esse caminho ao contrário: partem da estática e a removem aos poucos, até uma imagem coerente emergir. Soa improvável, mas é exatamente assim que funciona.

Partir do ruído e limpar passo a passo

Quando você pede uma imagem, o modelo não começa do papel em branco. Ele começa de um quadro de ruído aleatório puro — pixels sem sentido. A partir daí, executa uma série de passos, talvez vinte, cinquenta. A cada passo, ele estima "que parte disto é ruído?" e remove um pouco. A imagem que estava escondida sob a estática vai aparecendo, gradual, como uma foto se revelando numa bandeja de revelação química.

O ponto importante: o modelo nunca desenha de uma vez. Ele refina. Cada passo é um palpite um pouco melhor do que o anterior, e a soma de muitos palpites pequenos produz o resultado final.

Como ele aprendeu isso: adicionar ruído e reverter

O treino é o espelho do uso. Pegue milhões de imagens reais. Para cada uma, adicione ruído em quantidades crescentes, registrando o que foi adicionado em cada etapa. Agora peça ao modelo a tarefa inversa: dada uma imagem ruidosa, preveja o ruído que foi acrescentado. Acerte isso bilhões de vezes e o modelo se torna um especialista em separar sinal de estática.

A elegância está aí: ninguém ensinou o modelo a "desenhar um gato". Ensinaram a remover ruído. Como gatos apareciam nas imagens limpas do treino, remover ruído na direção certa produz gatos. A criação emerge da limpeza.

Forward (treino): adicionar ruído a imagens reais, em etapas controladas.
Reverse (geração): remover ruído passo a passo, partindo da estática pura.
O que o modelo prevê: não a imagem, mas o ruído a ser subtraído.
Passos (steps): mais passos costumam dar mais qualidade, ao custo de mais tempo.

Onde entra o texto

Até aqui, o modelo geraria uma imagem qualquer compatível com o que aprendeu. Falta dizer o que queremos. É o papel do condicionamento: o seu prompt é convertido em números por um codificador de linguagem e oferecido ao modelo como uma bússola em cada passo da limpeza.

A analogia precisa: imagine revelar uma foto no escuro, mas com alguém ao seu lado sussurrando "mais para a esquerda, agora um céu alaranjado, agora um farol". A cada passo, esse sussurro — o texto — empurra a remoção de ruído para a região que corresponde à descrição. Sem ele, sai uma imagem plausível e aleatória; com ele, sai a imagem pedida.

Latent diffusion: o truque que barateou tudo

Há um problema prático: uma imagem tem milhões de pixels, e fazer dezenas de passos sobre todos eles é caríssimo. A solução que popularizou a difusão foi a latent diffusion — difusão latente.

Em vez de trabalhar com os pixels diretamente, o modelo primeiro comprime a imagem para uma representação muito menor e densa (o latente), faz toda a difusão nesse espaço enxuto e só no final descomprime de volta para pixels. É como rascunhar a planta de uma casa numa folha pequena antes de erguer as paredes: você raciocina sobre a essência, não sobre cada tijolo. Esse atalho é o que permitiu rodar modelos de qualidade num computador comum.

Por que isso superou as abordagens antigas

Modelos de difusão são estáveis de treinar — não dependem do equilíbrio frágil de duas redes em disputa, como as GANs. São controláveis — o condicionamento por texto se encaixa naturalmente no processo passo a passo. E escalam bem — mais dados e mais capacidade rendem ganhos previsíveis. Foi essa combinação que os tornou a base do campo.

Perguntas Frequentes

O modelo guarda as imagens com que foi treinado?

Não diretamente. Ele guarda padrões aprendidos para separar ruído de sinal, não um arquivo das fotos originais. Em casos raros, imagens muito repetidas no treino podem ser parcialmente reproduzidas, o que alimenta as discussões sobre direitos autorais.

Por que às vezes preciso de mais passos?

Cada passo refina a imagem. Poucos passos podem deixar resultados grosseiros; muitos passos custam tempo com ganho decrescente. Há um ponto de equilíbrio que varia conforme o modelo e o objetivo.

O que é o "seed" na geração?

É o número que determina o ruído inicial. O mesmo seed com o mesmo prompt tende a produzir a mesma imagem — útil para reproduzir um resultado ou variá-lo de forma controlada.

Difusão serve só para imagens?

Não. A mesma ideia de remover ruído passo a passo é aplicada hoje a áudio, vídeo e outros tipos de dado. A imagem foi apenas o domínio onde a técnica primeiro brilhou.

← voltar para o guia completo

Acompanhe Geração de Imagem no radar

Veja os papers, modelos e datasets de Geração de Imagem em alta agora no Hugging Face.

Abrir radar de Geração de Imagem