Editorial LLMs & Texto

LongCat-2.0: a Meituan coloca 1,6 trilhão de parâmetros para rodar — sem um único chip da NVIDIA

O laboratório de IA da gigante chinesa de delivery abriu o código de um modelo MoE com 1,6 trilhão de parâmetros totais, treinado de ponta a ponta em mais de 50 mil aceleradores nacionais. A façanha não está só na escala — está em onde, e em quê, ela foi feita.

Ponto Zero ·

Há um detalhe na ficha técnica do LongCat-2.0 que importa mais do que o número de parâmetros. A Meituan — a empresa que no Ocidente seria descrita como "o iFood chinês" — anunciou e abriu o código de um modelo de linguagem com 1,6 trilhão de parâmetros totais e cerca de 48 bilhões ativados por token. É um número grande. Mas o que faz o anúncio render é a nota de rodapé: o modelo inteiro foi treinado e é servido sem uma única GPU da NVIDIA, em um cluster montado apenas com chips de fabricação nacional chinesa.

Em um ano em que o acesso a aceleradores ocidentais virou instrumento de política externa, treinar um modelo de fronteira inteiramente em silício doméstico deixou de ser detalhe de engenharia para virar declaração. O LongCat-2.0 é a prova de conceito mais ambiciosa até agora de que dá para fazer isso — com ressalvas que vale enumerar.

A escala, em números

O modelo é um Mixture-of-Experts (MoE), arquitetura em que só uma fração dos parâmetros se ativa a cada token — daí o contraste entre 1,6 trilhão de parâmetros totais e apenas 48 bilhões em uso por passo. A esparsidade resultante beira os 97%, o que coloca o LongCat-2.0 entre os modelos mais esparsos já publicados em escala.

O pré-treino, segundo a Meituan, rodou em mais de 50 mil chips de computação nacionais, levou pouco mais de um mês e consumiu mais de 35 trilhões de tokens — tudo isso, afirma a empresa, sem nenhum rollback e sem picos irrecuperáveis na função de perda. Para quem já viu treinos enormes descarrilharem por instabilidade numérica, a estabilidade de uma corrida desse tamanho em hardware menos maduro é, sozinha, um resultado.

  • 1,6 trilhão de parâmetros totais, ~48 bilhões ativados por token (MoE, esparsidade ~97%).
  • Treinado de ponta a ponta em mais de 50 mil aceleradores chineses — nenhuma GPU NVIDIA no circuito.
  • Pré-treino de pouco mais de um mês, 35+ trilhões de tokens, sem rollbacks nem picos de perda irrecuperáveis.
  • Contexto de 1 milhão de tokens, com uma nova atenção esparsa (LSA) para sustentá-lo.
  • Código aberto, com pesos no Hugging Face e adaptação a harnesses como Claude Code, OpenClaw e Hermes.

Duas apostas de arquitetura

O LongCat-2.0 herda o desenho do LongCat-Flash, mas adiciona duas peças que merecem atenção porque atacam gargalos concretos.

A primeira é a LongCat Sparse Attention (LSA), uma evolução da atenção esparsa da DeepSeek (a DSA). O diagnóstico da Meituan é específico: nos esquemas anteriores, o "indexador" — o componente que decide quais tokens passados merecem atenção — virava o próprio gargalo, por causa de acessos de memória fragmentados e de um custo de pontuação que cresce com o quadrado do contexto. A LSA reescreve esse indexador com três otimizações ortogonais: indexação ciente de fluxo (transforma acessos aleatórios à memória em leituras sequenciais previsíveis), indexação entre camadas (reaproveita um mesmo cálculo de índice em várias camadas consecutivas) e indexação hierárquica (uma triagem grossa por blocos antes da seleção fina de tokens, ligada sob demanda em contextos ultralongos). É o tipo de engenharia que não vira manchete, mas é o que torna o contexto de 1 milhão de tokens viável na prática.

A segunda é o N-gram Embedding, herdado do LongCat-Flash-Lite: 135 bilhões de parâmetros dedicados a representar combinações de tokens (n-grams de tamanho 5), expandindo o espaço de embeddings em mais de 100 vezes. A justificativa é elegante — com a esparsidade do MoE já no ponto de retornos decrescentes, adicionar parâmetros nessa dimensão ortogonal rende mais do que empilhar mais especialistas. A Meituan diz manter o N-gram abaixo de 10% do total, dentro da faixa em que a vantagem se sustenta.

O pós-treino: três grupos de especialistas

Para o ajuste final, a equipe dividiu o trabalho em três frentes especializadas e depois as fundiu numa arquitetura que batizou de MOPD: um grupo voltado a capacidades de agente (chamadas de ferramentas, interação multironda via API, autocorreção para evitar laços infinitos), um de raciocínio (matemática, STEM, inferência de múltiplos saltos) e um de experiência de interação (seguir instruções finas, conter alucinações, segurança sem sacrificar utilidade). A ênfase declarada é em cenários de agente: planejamento de tarefas complexas, uso de ferramentas e geração de código de nível de produção.

As ressalvas

Vale ler o anúncio com a régua de sempre. Os benchmarks que comparam o LongCat-2.0 a modelos fechados de ponta foram, com poucas exceções, medidos internamente pela própria Meituan, no framework dela — números autorreferidos pedem confirmação independente antes de virarem placar. "Roda em chip nacional" também não é o mesmo que "roda tão bem quanto na infraestrutura madura da NVIDIA": a própria empresa admite que o ecossistema de software ao redor desses aceleradores ainda é incipiente, e que boa parte do esforço foi justamente compensar limitações de banda de memória e ferramental — um ganho de throughput de mais de 35% sobre a implementação ingênua dá a medida do quanto havia para corrigir.

Nada disso diminui o feito. Só recoloca o anúncio onde ele rende mais: não como "o modelo que bate todo mundo", mas como evidência de que a fronteira da IA já não depende de um único fornecedor de silício.

Por que importa

A leitura mais interessante do LongCat-2.0 é geopolítica antes de ser técnica. Por dois anos, o gargalo presumido da IA chinesa era o acesso a aceleradores ocidentais. Um modelo aberto, de trilhão de parâmetros e contexto de 1 milhão de tokens, treinado inteiramente fora desse circuito, sugere que o gargalo é mais permeável do que parecia — e que a aposta em hardware doméstico, antes vista como plano B, começa a entregar plano A. Para o ecossistema aberto, há um bônus concreto: mais um modelo de ponta com pesos disponíveis, num momento em que os maiores laboratórios ocidentais fecham cada vez mais as portas.

O que fica

O LongCat-2.0 é, ao mesmo tempo, um modelo e um recado. O modelo é grande, esparso, focado em agentes e razoavelmente bem desenhado, com duas ideias de arquitetura que valem acompanhar. O recado é que a infraestrutura de IA está se desacoplando do silício de um único país — e que esse desacoplamento, se a estabilidade relatada se confirmar fora do laboratório, muda menos quem lidera a corrida e mais quantos conseguem correr nela.

Perguntas Frequentes

O que é o LongCat-2.0?

É um modelo de linguagem Mixture-of-Experts de código aberto, lançado pela equipe LongCat da Meituan, com 1,6 trilhão de parâmetros totais e cerca de 48 bilhões ativados por token. Tem contexto de 1 milhão de tokens e foco em tarefas de código e de agente.

Por que o treino em chips nacionais é relevante?

Porque o modelo inteiro foi treinado e é servido em mais de 50 mil aceleradores de fabricação chinesa, sem nenhuma GPU da NVIDIA. Num cenário em que o acesso a chips ocidentais virou alavanca geopolítica, isso mostra que treinar modelos de fronteira fora desse circuito já é viável.

O que muda na arquitetura em relação às versões anteriores?

Duas peças: a LongCat Sparse Attention (LSA), que reescreve o indexador da atenção esparsa para sustentar contextos de 1 milhão de tokens, e o N-gram Embedding (135 bilhões de parâmetros), que expande o espaço de representação em mais de 100 vezes por uma dimensão ortogonal ao MoE.

Dá para confiar nos benchmarks?

Com cautela. A maioria das comparações com modelos fechados foi medida internamente pela própria Meituan, no framework dela. São números promissores, mas pedem verificação independente antes de virarem placar definitivo. A própria empresa também reconhece que o ferramental de software dos chips nacionais ainda é imaturo.

compartilhar: