Editorial LLMs & Texto

A NVIDIA colou um "gêmeo" de difusão num LLM pronto — e ele ficou 2,42x mais rápido

O Nemotron-Labs-TwoTower pega um modelo autorregressivo já treinado, congela-o e acopla uma segunda rede que aprende a "adivinhar" blocos inteiros de texto de uma vez. O resultado: throughput 2,42 vezes maior mantendo 98,7% da qualidade original — treinando apenas a peça nova, com uma fração do orçamento de dados do modelo base.

Ponto Zero ·

A forma mais comum de gerar texto com um modelo de linguagem é token a token: o modelo prevê a próxima palavra, olha o resultado, prevê a seguinte, e assim por diante. É como digitar uma frase letra por letra, sempre olhando o que já foi escrito antes de decidir a próxima. Funciona bem, mas é sequencial por natureza — e sequencial, em hardware paralelo como uma GPU, é desperdício de capacidade.

A NVIDIA publicou pesos abertos e código de treinamento para o Nemotron-Labs-TwoTower, um modelo que ataca esse gargalo sem jogar fora o investimento já feito num modelo autorregressivo existente — uma proposta mais pragmática do que reconstruir um modelo de difusão do zero.

Duas torres, uma única base

O nome "TwoTower" descreve a arquitetura literalmente: duas torres de processamento compartilhando a mesma base, o Nemotron-3-Nano-30B-A3B, um modelo híbrido de 30 bilhões de parâmetros que já mistura camadas Mamba-2 (uma alternativa eficiente à atenção tradicional), camadas de autoatenção e camadas de mixture-of-experts (grupos de sub-redes especializadas, das quais só uma fração é ativada por token).

A primeira torre — o "tower" de contexto" — é a versão congelada e inalterada do modelo original, processando o prompt e os tokens já confirmados exatamente como um autorregressivo normal faria. A segunda — o "tower" de difusão, treinável — recebe blocos de tokens ruidosos e os refina de forma bidirecional (olhando para frente e para trás dentro do bloco), usando atenção cruzada para consultar, camada por camada, o que a torre de contexto já processou.

Por que isso é mais barato do que parece

O ponto mais interessante não é a arquitetura em si, mas o custo de chegar até ela. A torre de contexto vem pronta — os 30 bilhões de parâmetros do Nemotron-3-Nano já foram pré-treinados em 25 trilhões de tokens. A NVIDIA não repetiu esse trabalho. Treinou apenas a torre de difusão nova, com aproximadamente 2,1 trilhões de tokens — menos de um décimo do orçamento de dados do modelo base.

  • 2,42x mais throughput (tokens gerados por segundo de relógio) em configuração padrão
  • 98,7% da qualidade do modelo autorregressivo original, segundo a NVIDIA
  • 2,1 trilhões de tokens para treinar a torre nova — contra 25 trilhões do backbone
  • ~60 bilhões de parâmetros somando as duas torres; ~3 bilhões ativos por torre a cada token
  • 2 GPUs H100 (~59 GB cada, em BF16) necessárias para rodar a difusão completa

Onde o ganho de velocidade aparece — e onde ele custa caro

Nos benchmarks divulgados, a diferença entre o Nemotron-3-Nano original e o TwoTower é pequena na maioria das métricas gerais: 78,56 contra 78,24 no MMLU (conhecimento geral), 91,72 contra 92,66 no ARC-Challenge (raciocínio de senso comum) — praticamente empate, em alguns casos até uma leve vantagem para o TwoTower.

Mas em tarefas que exigem sequência lógica rígida, a perda é mais visível: 79,27 para 75,58 no HumanEval (geração de código) e 92,49 para 90,14 no GSM8K (problemas matemáticos de nível escolar). Faz sentido: gerar um bloco de código ou uma cadeia de cálculo em paralelo, sem processar cada passo estritamente na ordem, é onde a abordagem bidirecional tem mais chance de errar um detalhe que uma geração sequencial capturaria.

O que a NVIDIA está realmente propondo

A promessa central do TwoTower não é "difusão é melhor que autorregressivo" — é que um laboratório com um checkpoint autorregressivo já pronto pode adicionar geração paralela sem refazer o pré-treinamento inteiro. Isso muda o cálculo de custo-benefício para quem já tem um modelo grande em produção: em vez de escolher entre manter o que funciona ou migrar para uma arquitetura nova do zero, dá para acoplar a capacidade nova por cima, pagando só pela peça adicional.

É uma diferença de filosofia importante em relação a modelos de difusão "puros", treinados do início ao fim para esse paradigma. Aqui, o ganho de velocidade é tratado como um upgrade modular — mais parecido com adicionar uma placa de expansão do que com trocar de computador.

Os limites que a própria NVIDIA reconhece

O TwoTower ainda exige duas GPUs H100 rodando em paralelo para a versão completa de difusão, o que não é trivial de disponibilizar em produção. O modelo base, além disso, não passou por ajuste de instrução nem por alinhamento — é um modelo de base, não pronto para conversar como um assistente. E a própria NVIDIA avisa: empurrar o ganho de velocidade além de 3x degrada a qualidade de forma mais acentuada, especialmente em código e matemática — os domínios que mais dependem de sequência estrita.

Perguntas Frequentes

O que é o Nemotron-Labs-TwoTower?

É um modelo de linguagem de difusão em blocos, criado pela NVIDIA, que combina uma torre autorregressiva congelada (o modelo original) com uma segunda torre treinável que gera blocos de texto de forma paralela e bidirecional, acelerando a geração sem repetir o pré-treinamento completo.

O que significa "difusão" aplicada a texto?

É uma técnica de geração que parte de um bloco de tokens "ruidosos" (incompletos ou aleatorizados) e os refina em etapas, olhando o contexto em várias direções ao mesmo tempo — diferente da geração autorregressiva tradicional, que produz um token de cada vez, sempre na ordem.

O modelo é mais rápido em todas as tarefas?

Não igualmente. O ganho de velocidade é mais consistente em tarefas de conhecimento geral e raciocínio de senso comum. Em código e matemática, que dependem de sequência lógica rígida, a qualidade cai mais — a própria NVIDIA reconhece essa limitação.

É preciso treinar o modelo do zero para usar essa técnica?

Não. Essa é a proposta central do TwoTower: a torre autorregressiva original fica congelada, e só a torre de difusão nova precisa ser treinada — com uma fração do volume de dados usado no pré-treinamento do modelo base.

O TwoTower não resolve a tensão entre velocidade e precisão sequencial — só mostra que dá para negociá-la de forma mais barata do que se pensava. Para quem já tem um modelo grande funcionando, isso é mais valioso do que uma arquitetura nova e mais rápida construída do zero: é a mesma capacidade, com uma marcha extra, sem trocar de carro.

compartilhar: