Editorial Multimodal

DiffusionGemma: o Google aplica difusão à escrita de texto

Em vez de produzir uma palavra por vez, o novo modelo aberto do Google revela blocos inteiros de texto de uma só vez — e passa de 1.100 tokens por segundo. O preço é uma troca explícita de precisão por velocidade.

Ponto Zero · 23 de janeiro de 2026

Quase todo modelo de linguagem que você já usou escreve do mesmo jeito: uma palavra, depois a próxima, depois a próxima — sempre olhando para trás, nunca para frente. É a geração autorregressiva, e ela tem um limite físico. Por mais rápido que seja o hardware, o texto sai em fila indiana.

O DiffusionGemma, lançado pelo Google sob licença Apache 2.0, quebra a fila. Ele toma emprestado o mecanismo que move geradores de imagem — a difusão — e o aplica à escrita. Em vez de produzir um token por vez, revela blocos inteiros de texto de uma vez, refinando-os por etapas. O ganho de velocidade é dramático; a perda de precisão, também declarada. É um dos lançamentos mais instrutivos do ano, justamente porque mostra a troca às claras.

O que difusão tem a ver com texto

A difusão nasceu na geração de imagens. A ideia é começar com ruído puro e, passo a passo, removê-lo até emergir uma imagem coerente — como uma foto revelando-se aos poucos num banho químico. Cada etapa de "remoção de ruído" (em inglês, denoising) torna o resultado um pouco mais nítido.

O DiffusionGemma faz o equivalente com palavras. Em vez de pixels, ele trabalha com um bloco de tokens — que o Google chama de canvas, uma tela de 256 posições. O modelo parte de uma versão "embaçada" desse bloco e o refina em etapas, decidindo todas as palavras em paralelo a cada passo. Em vez de escrever da esquerda para a direita, ele esculpe o parágrafo inteiro ao mesmo tempo.

Por que isso fica tão mais rápido

Porque o gargalo da geração autorregressiva é a dependência sequencial: a palavra de número 50 só pode ser calculada depois das 49 anteriores. Ao revelar blocos em paralelo, o DiffusionGemma rompe essa amarra. Ele declara produzir de 15 a 20 tokens por passagem e ultrapassar 1.100 tokens por segundo em uma única GPU H100 — números que fazem a escrita parecer instantânea.

Há um detalhe elegante: o modelo adapta o esforço à tarefa. Prompts simples e saídas estruturadas, como código, precisam de menos etapas de refinamento; um raciocínio difícil exige mais (o teto recomendado é 48 passos). É o oposto do modelo autorregressivo, que paga o mesmo custo por token independentemente da dificuldade.

      25,2 bilhões de parâmetros totais; só 3,8 bilhões ativos (mistura de especialistas).
Mais de 1.100 tokens por segundo em uma H100 (FP8, lote baixo).
Contexto de 256 mil tokens; entende imagens e até 60 segundos de vídeo.
Treinado em 140+ idiomas; licença Apache 2.0.
Troca declarada: 77,6% no MMLU-Pro contra 82,6% do Gemma 4 autorregressivo.

    

A conta que o Google não esconde

Aqui está o que torna o lançamento honesto. O DiffusionGemma perde para o Gemma 4 — o irmão autorregressivo de tamanho semelhante — em praticamente todos os benchmarks de qualidade. São 69,1% contra 88,3% no AIME 2026 (matemática), 54,3% contra 73,8% no MMMU Pro (raciocínio visual), 32,0% contra 44,1% na recuperação de contexto longo.

O Google apresenta isso como o que é: uma troca deliberada de exatidão por latência, voltada a aplicações sensíveis ao tempo de resposta. Para um assistente que precisa responder no instante, ou um sistema que gera código de andaime, perder alguns pontos de precisão em troca de velocidade dezenas de vezes maior pode ser o negócio certo. Para resolver uma olimpíada de matemática, não é.

Onde isso pode importar

A difusão de texto ainda é território experimental, e o DiffusionGemma é menos um produto acabado do que um marco de pesquisa colocado em mãos abertas. Seu valor está em ser reproduzível: pesquisadores podem agora estudar, modificar e estressar uma arquitetura de difusão de linguagem em escala real, sem depender de um sistema fechado.

A pergunta que o modelo deixa em aberto é se a difusão fechará a distância de qualidade com o tempo — como já fechou, na imagem, a distância para outras técnicas — ou se a escrita é diferente o bastante para resistir. Por ora, o DiffusionGemma não substitui o gerador autorregressivo. Ele oferece uma segunda forma de pensar o problema, e às vezes é disso que um campo precisa para destravar.

Perguntas Frequentes

Difusão de texto é melhor que geração palavra por palavra?

Não em qualidade — pelo menos não ainda. O DiffusionGemma é muito mais rápido, mas perde para o equivalente autorregressivo do Google na maioria dos benchmarks. É uma troca de precisão por velocidade, vantajosa em aplicações sensíveis à latência e desvantajosa em tarefas que exigem máxima exatidão.

O que é o "canvas" do modelo?

É o bloco de tokens — 256 posições — que o modelo refina de uma só vez. Em vez de escrever da esquerda para a direita, o DiffusionGemma parte de uma versão embaçada desse bloco e a torna nítida em etapas, decidindo as palavras em paralelo.

Dá para rodar localmente?

É um dos objetivos do design. Com apenas 3,8 bilhões de parâmetros ativos por vez e quantização FP8, o modelo foi pensado para execução local eficiente. A licença Apache 2.0 permite uso comercial e modificação livres.

// relacionados

DiffusionGemma: o Google aplica difusão à escrita de texto

O que difusão tem a ver com texto

Por que isso fica tão mais rápido

A conta que o Google não esconde

Onde isso pode importar

Perguntas Frequentes

Difusão de texto é melhor que geração palavra por palavra?

O que é o "canvas" do modelo?

Dá para rodar localmente?

Leia também

HauhauCS/Gemma4-12B-QAT-Uncensored-HauhauCS-Balanced

Jury Duty: Calibration and Orientation Failures in MLLM-as-a-Judge Under Cultural Ambiguity

Is Our Benchmark Enough? An Analysis of Continual Learning for MLLMs

SciLens: Multi-modal Scientific Claim Verification with Agentic Entailment and Grounding