GLM-5.2: um modelo aberto reivindica a coroa do coding agêntico
A Z.AI publicou sob licença MIT um mixture-of-experts de 753 bilhões de parâmetros com contexto de 1 milhão de tokens — e números que, no papel, superam modelos proprietários em tarefas de programação de longo horizonte.
Há alguns anos, "modelo aberto" era sinônimo de "modelo de segunda linha": bom para estudar, fraco para usar. O GLM-5.2, que subiu ao topo das tendências do Hugging Face nos últimos dias, é mais uma evidência de que essa equação se inverteu. A Z.AI liberou os pesos sob licença MIT — a mais permissiva que existe, sem restrições regionais — de um modelo que reivindica os maiores resultados públicos já vistos em programação agêntica.
O detalhe que importa não é o tamanho, e sim a combinação: pesos abertos, licença comercial irrestrita e desempenho que, segundo os benchmarks divulgados, encosta ou ultrapassa o de sistemas fechados. Quando isso acontece, o cálculo de quem constrói produtos muda.
O que exatamente foi lançado
O GLM-5.2 é um mixture-of-experts (MoE) — uma arquitetura em que apenas uma fração dos parâmetros é ativada por token, em vez de toda a rede. São 753 bilhões de parâmetros no total, mas só cerca de 40 bilhões entram em ação a cada passo. Na prática, é como ter uma redação enorme em que, para cada frase, apenas os redatores certos são convocados — o custo de inferência fica muito abaixo do que o tamanho bruto sugere.
O contexto chega a 1 milhão de tokens, cinco vezes o do antecessor, e — segundo a Z.AI — de forma estável, não apenas nominal. Para sustentar isso, o modelo estreia uma técnica batizada de IndexShare, que reaproveita os indexadores entre camadas de atenção esparsa e corta em 2,9× os FLOPs por token em contexto de 1M. É o tipo de engenharia que raramente vira manchete, mas é o que separa "1 milhão de tokens no slide" de "1 milhão de tokens que você pode pagar".
- Arquitetura: MoE, 753 B de parâmetros totais, ~40 B ativos por token
- Contexto: 1.000.000 de tokens, com a técnica IndexShare reduzindo FLOPs em 2,9×
- Licença: MIT — uso comercial livre, sem trava regional
- SWE-Bench Pro: 62,1% · Terminal-Bench 2.1: 81,0%
- GPQA-Diamond: 91,2% · AIME 2026: 99,2%
Por que o coding agêntico é o teste que importa
Programar não é responder uma pergunta — é abrir arquivos, rodar testes, ler o erro, corrigir e tentar de novo. Esse vaivém é o que se chama de tarefa agêntica: o modelo não devolve um texto e encerra, ele age sobre um ambiente ao longo de muitos passos. O SWE-Bench Pro mede justamente isso, usando bugs reais de projetos de código aberto; o Terminal-Bench avalia o modelo operando um terminal de verdade.
Nesses dois eixos é que o GLM-5.2 faz sua aposta mais ousada. Os 81% no Terminal-Bench 2.1 e os 62,1% no SWE-Bench Pro estão entre os melhores números públicos de qualquer modelo — aberto ou não. Se confirmados em uso independente, colocam um sistema de pesos abertos na liderança de uma categoria que, até pouco tempo, era território exclusivo dos laboratórios fechados.
O ceticismo necessário
Aqui cabe a ressalva que todo número de benchmark merece — e que, nesta semana, ganhou peso extra. Pontuações de programação agêntica vêm sendo contestadas: parte do que os modelos "resolvem" não é raciocínio, e sim recuperação da resposta que já existe na internet. Não é uma acusação contra o GLM-5.2 especificamente; é o estado da arte da medição. Um 62% no SWE-Bench Pro pode valer menos do que parece se uma fatia das soluções foi pescada, não deduzida.
O ponto não é descartar o resultado — é lê-lo com a régua certa. Pesos abertos têm uma vantagem decisiva nesse debate: qualquer um pode auditar, reproduzir e desmontar a alegação. Um número fechado é uma promessa; um número aberto é um convite à verificação.
O que muda na prática
Para quem desenvolve, a licença MIT é a notícia tão importante quanto os benchmarks. Significa rodar o modelo na própria infraestrutura, ajustá-lo a um domínio específico e embuti-lo num produto comercial sem pedir licença a ninguém. Some-se a isso o contexto de 1M de tokens — espaço para uma base de código inteira na janela — e o GLM-5.2 vira candidato concreto a motor de assistentes de programação que não dependem de uma API de terceiros.
O custo continua real: 753 bilhões de parâmetros, mesmo esparsos, não cabem num laptop. Mas a fronteira entre "aberto" e "competitivo" ficou mais fina do que nunca. E é nessa fronteira, e não no anúncio de mais um recorde, que está a verdadeira notícia.
Perguntas Frequentes
O que significa um modelo ter 753 B de parâmetros mas só 40 B ativos?
É a marca de uma arquitetura mixture-of-experts (MoE): o modelo é grande no total, mas para cada token só uma fração dos "especialistas" é acionada. Isso mantém a capacidade de um modelo gigante com um custo de inferência muito menor do que o tamanho bruto sugeriria.
A licença MIT permite uso comercial?
Sim. A MIT é uma das licenças mais permissivas que existem: permite usar, modificar, redistribuir e embutir o modelo em produtos comerciais, sem restrição regional e sem royalties — bastando preservar o aviso de licença.
Posso confiar nos benchmarks de coding agêntico?
Com cautela. Estudos recentes mostram que parte das soluções em benchmarks como o SWE-Bench Pro vem de recuperação da resposta já publicada, não de raciocínio. A vantagem de um modelo aberto é que esses números podem ser auditados e reproduzidos de forma independente.