Editorial LLMs & Texto

DeepSeek-V4-Pro: 1,6 trilhão de parâmetros que cabem na conta

O novo modelo aberto da DeepSeek empilha um milhão de tokens de contexto e ativa só 49 bilhões de parâmetros por vez — e gasta uma fração do que gastava a geração anterior para fazê-lo.

Ponto Zero ·

Há dois jeitos de tornar um modelo de linguagem maior. O caminho fácil é empilhar parâmetros e pagar a conta de memória e de cálculo que vem junto. O caminho difícil é fazer um modelo gigantesco se comportar como um modelo pequeno na hora de responder. O DeepSeek-V4-Pro, publicado sob licença MIT no Hugging Face, escolheu o caminho difícil — e é por isso que merece atenção.

No papel, são 1,6 trilhão de parâmetros. Na prática, apenas 49 bilhões entram em ação para processar cada token. A diferença entre esses dois números é a história inteira do modelo: capacidade enorme, custo de operação modesto. E o anúncio que pesa mais não é o tamanho, é a economia — o V4-Pro afirma rodar contextos de um milhão de tokens usando 27% dos cálculos e 10% da memória de cache que a versão anterior exigia.

O que é uma "mistura de especialistas"

O DeepSeek-V4-Pro é um modelo MoE — sigla de Mixture-of-Experts, ou mistura de especialistas. Em vez de uma única rede densa em que todo parâmetro participa de toda resposta, o modelo é dividido em centenas de sub-redes especializadas. Para cada token, um roteador escolhe um punhado delas e ignora o resto.

A imagem útil é a de um hospital. Você não consulta todos os médicos a cada queixa; a recepção encaminha o paciente ao especialista certo. O hospital pode ter mil profissionais no quadro — sua consulta envolve dois ou três. É assim que 1,6 trilhão de parâmetros couberam num orçamento de 49 bilhões por token.

De onde vem a economia

A novidade técnica do V4-Pro está em como ele administra o contexto longo. Modelos de linguagem guardam, num cache, uma representação de tudo o que já leram — é o que permite responder coerentemente no fim de um documento de mil páginas. Esse cache cresce com o texto e vira o principal gargalo de memória em janelas de um milhão de tokens.

A DeepSeek ataca o problema com uma atenção híbrida que combina dois esquemas de compressão — um esparso, outro mais agressivo — para encolher esse cache. O resultado declarado é direto: a mesma janela de um milhão de tokens que no DeepSeek-V3.2 consumia memória cheia agora cabe em um décimo dela. Há ainda dois ingredientes de bastidor — conexões hiperdimensionais com restrição geométrica para estabilizar o sinal entre camadas e o otimizador Muon no treino — mas o efeito que o usuário sente é a conta de inferência mais barata.

  • 1,6 trilhão de parâmetros totais; 49 bilhões ativados por token.
  • 1 milhão de tokens de contexto — cerca de 1.500 páginas de uma só vez.
  • 27% dos cálculos e 10% do cache da geração anterior, para o mesmo contexto.
  • Treinado em mais de 32 trilhões de tokens; pesos em FP4 + FP8 mistos.
  • Licença MIT — uso comercial liberado.

Os números de benchmark

No modo de raciocínio mais intenso, o V4-Pro reporta 87,5% no MMLU-Pro (conhecimento geral difícil) e 93,5% no LiveCodeBench (programação). Em matemática de competição, marca 95,2% no HMMT 2026 e 89,8% no IMOAnswerBench — patamares que, há dois anos, eram apresentados como fronteira de laboratórios fechados. No Codeforces, a pontuação declarada de 3206 o coloca acima da imensa maioria dos programadores humanos competitivos.

Vale a cautela de sempre: benchmark é vitrine, e cada laboratório escolhe a sua. O dado que resiste melhor ao ceticismo é o de contexto longo — 83,5% no MRCR de 1 milhão de tokens mede algo concreto e difícil de maquiar: a capacidade de recuperar uma agulha específica num palheiro de um milhão de tokens.

Por que o "aberto" importa aqui

Um modelo desse porte sob licença MIT é um fato político, não só técnico. MIT é uma das licenças mais permissivas que existem: permite uso comercial, modificação e redistribuição sem as restrições de cláusulas de uso aceitável que acompanham boa parte dos pesos "abertos" do mercado. Quem tiver máquinas suficientes pode rodar o V4-Pro inteiro, auditar seu comportamento e ajustá-lo — sem pedir licença a ninguém.

A ressalva está no "máquinas suficientes". Mesmo com 49 bilhões de parâmetros ativos, o modelo precisa carregar os 1,6 trilhão na memória para escolher quais especialistas usar. Isso é infraestrutura de data center, não de notebook. A abertura, aqui, democratiza a auditoria e a pesquisa muito mais do que o acesso doméstico.

O que isso sinaliza

A corrida deixou de ser por modelos maiores e passou a ser por modelos maiores que custam menos para usar. O V4-Pro é uma aposta nítida nessa direção: a capacidade bruta virou commodity; a eficiência de inferência é o novo campo de disputa. Quando um trilhão de parâmetros roda com a conta de um modelo médio, o limite deixa de ser quanto o modelo sabe e passa a ser quanto custa perguntar.

Perguntas Frequentes

O que significa "49 bilhões de parâmetros ativados"?

É quanto do modelo entra em ação para processar cada token. Apesar de ter 1,6 trilhão de parâmetros no total, o DeepSeek-V4-Pro só aciona uma fração deles por vez, graças à arquitetura de mistura de especialistas. Isso reduz o custo de cálculo sem abrir mão da capacidade total.

Dá para rodar o DeepSeek-V4-Pro em casa?

Na prática, não. Mesmo ativando poucos parâmetros por token, o modelo inteiro precisa estar carregado na memória, o que exige hardware de data center. A licença MIT permite o uso, mas o requisito de infraestrutura limita o acesso a quem tem clusters de GPUs.

Por que a janela de 1 milhão de tokens é importante?

Permite ao modelo processar documentos inteiros, bases de código completas ou conversas muito longas de uma só vez, sem perder o fio. O avanço do V4-Pro não é só ter essa janela, mas conseguir mantê-la com um décimo da memória da geração anterior.

compartilhar: