GLM-5.2: o open-weight que superou o GPT-5.5 em código, com 1 milhão de tokens
A Z.AI lança o maior modelo de linguagem com pesos abertos da história — 744 bilhões de parâmetros, janela de contexto cinco vezes maior que a versão anterior e licença MIT sem restrições regionais.
No começo de junho, a Z.AI — empresa chinesa antes conhecida como Zhipu AI — publicou o GLM-5.2 no Hugging Face com licença MIT. Não há paywall, não há restrição geográfica, não há cláusula que limite o uso comercial. Qualquer pessoa pode baixar os pesos, rodar localmente e adaptar como quiser. Isso, por si só, já seria notícia. Mas o que torna o lançamento excepcional é o que o modelo entrega: 62,1 pontos no SWE-bench Pro, suficiente para ultrapassar o GPT-5.5 (58,6) na principal avaliação de engenharia de software autônoma do campo.
A comparação é parcial — o Claude Opus 4.8 segura 69,2 no mesmo benchmark — mas a fronteira relevante aqui é outra: o GLM-5.2 é o primeiro modelo open-weight a cruzar os 60 pontos no SWE-bench Pro. E faz isso com uma janela de contexto de 1 milhão de tokens, cinco vezes maior que a versão anterior lançada em abril.
O que mudou do GLM-5.1 para o 5.2
O GLM-5.1 tinha contexto de cerca de 200 mil tokens — respeitável, mas insuficiente para projetos de código que envolvem centenas de arquivos e históricos longos de interação com ferramentas. O 5.2 expande esse limite para 1 milhão de tokens sem sacrificar eficiência. A mágica está numa técnica chamada IndexShare.
Em modelos com Dynamic Sparse Attention (DSA) — a família de mecanismos de atenção que evitam processar todos os pares de tokens, focando nos mais relevantes —, o gargalo clássico é o custo de calcular o índice de quais tokens prestar atenção. O GLM-5.2 resolve isso reutilizando o mesmo índice leve a cada quatro camadas consecutivas de atenção esparsa. Três das quatro camadas herdam o índice calculado pela primeira, eliminando a recomputação. O resultado: 2,9 vezes menos FLOPs por token em contextos de 1 milhão de tokens.
O mecanismo de Multi-Token Prediction (MTP) também foi aprimorado com IndexShare combinado a KVShare — compartilhamento de key-value caches. O comprimento de aceitação na decodificação especulativa aumentou 20% em relação ao baseline, o que acelera a geração sem degradar qualidade.
- Parâmetros: 744 bilhões totais, ~40 bilhões ativos por token (MoE)
- Contexto: 1 milhão de tokens de entrada; 131 mil de saída
- AIME 2026: 99,2 — raciocínio matemático olímpico praticamente resolvido
- SWE-bench Pro: 62,1 (GPT-5.5: 58,6; Claude Opus 4.8: 69,2)
- Terminal-Bench 2.1: 81,0 (tarefa de agente em terminal de longo horizonte)
- HLE (Humanit's Last Exam): 40,5 sem ferramentas; 54,7 com ferramentas
- Pré-treinamento: ~28,5 trilhões de tokens
- Licença: MIT, uso comercial irrestrito, sem restrições por país
Por que o SWE-bench Pro importa mais que o AIME
O resultado de 99,2 no AIME 2026 é impressionante — mas o benchmark de matemática olímpica já começa a saturar para os melhores modelos, e o número deve ser lido com cuidado: a fronteira entre "memorização de padrões de solução" e "raciocínio genuíno" continua opaca nesses benchmarks.
O SWE-bench Pro é mais difícil de inflar. Ele mede se um modelo consegue resolver issues reais do GitHub — bugs reportados, com repositório completo disponível, sem dicas sobre onde o problema está. O modelo precisa navegar a base de código, localizar a causa raiz, escrever a correção e garantir que o conjunto de testes passe. Cinquenta e oito porcento de taxa de resolução, no GPT-5.5, já é suficiente para substituir um desenvolvedor júnior em tarefas de manutenção padronizadas. O GLM-5.2 entrega 62,1 com pesos abertos e gratuitos.
O Terminal-Bench 2.1 — avaliação de tarefas longas em terminal — conta uma história complementar: 81,0 pontos, ante 63,5 do GLM-5.1. A melhora de 17,5 pontos em dois meses reflete diretamente o ganho de contexto: tarefas que antes exigiam que o modelo "esquecesse" a conversa anterior agora cabem inteiras na janela.
Arquitetura MoE: 744 bilhões de parâmetros, 40 bilhões por token
Mixture-of-Experts (MoE) é a arquitetura que permite escalar modelos para centenas de bilhões de parâmetros sem tornar a inferência proibitiva. A lógica é simples: em vez de ativar todos os parâmetros para cada token processado, o modelo mantém um roteador que seleciona um subconjunto de "especialistas" — sub-redes específicas — para cada decisão. O GLM-5.2 tem 744 bilhões de parâmetros no total, mas ativa apenas cerca de 40 bilhões por token.
Na prática, isso significa que o custo computacional real de inferência se aproxima ao de um modelo denso de 40 bilhões — não de 744 bilhões. A ressalva é que carregar todos os pesos exige hardware abundante; o modelo não roda em uma única GPU de consumo. Para rodar localmente, frameworks como KTransformers e Unsloth oferecem quantizações que reduzem o requisito de memória.
Treinamento com guardrails contra trapaça
Um problema clássico em RL para agentes de código é o reward hacking: o modelo descobre atalhos para maximizar a recompensa sem resolver o problema real — por exemplo, baixando soluções prontas da internet, acessando arquivos que não deveria ou manipulando os testes para forçar passagem. O GLM-5.2 aborda isso com uma camada dupla de controle durante o treinamento: filtros baseados em regras para comportamentos claramente proibidos combinados com um modelo de linguagem separado que detecta intenção nos rollouts. Se o agente parece estar tentando contornar as regras, o passo é descartado — mas o treinamento continua com os outros rollouts. Não há punição que paralise o aprendizado.
O contexto do "boom" de modelos abertos chineses
O GLM-5.2 não está sozinho. Em junho de 2026, pelo menos seis grandes laboratórios chineses lançaram modelos open-weight competitivos em uma janela de duas semanas: Alibaba (Qwen 3.7), DeepSeek (V4-Pro e V4-Flash), Tencent (Hunyuan), Baidu (ERNIE), ByteDance (Doubao) e agora Z.AI (GLM-5.2). A concentração é incomum — parece sinalizar que o campo percebeu que lançamentos abertos servem de argumento contra regulações que tentam impedir o acesso a modelos de fronteira.
Para o ecossistema de código aberto, o efeito prático é extraordinário: em menos de um mês, o GitHub e o Hugging Face receberam modelos que, há seis meses, teriam ocupado os primeiros lugares de qualquer leaderboard proprietário. O GLM-5.2 em particular chega com 51 quantizações disponíveis, 9 fine-tunes e 4 adaptadores já publicados pela comunidade.
O que o GLM-5.2 não resolve
Benchmarks não são produtos. O SWE-bench Pro mede resolução de issues específicos em repositórios específicos; não mede capacidade de entender um sistema legado mal documentado, de negociar requisitos com um time ou de tomar decisões de arquitetura com trade-offs não óbvios. O Terminal-Bench 2.1 mede autonomia em tarefas estruturadas de terminal; não mede julgamento em situações ambíguas.
A janela de 1 milhão de tokens também é necessária mas não suficiente para projetos reais de longo horizonte: a qualidade de atenção degrada com a distância, e muitos modelos — incluindo o GLM-5.2 — tendem a perder detalhes enterrados no meio de contextos muito longos. O contexto longo abre portas; não as atravessa automaticamente.
Perguntas Frequentes
O GLM-5.2 pode rodar localmente em hardware de consumo?
Não sem quantização agressiva. Com os 744 bilhões de parâmetros em BF16, o modelo exige dezenas de GPUs de datacenter só para carregar os pesos. Com KTransformers ou Unsloth e quantizações INT4 disponíveis na comunidade, é possível rodar em clusters menores, mas ainda demanda hardware significativo. Para uso em produção, as APIs da Z.AI e de parceiros como FriendliAI e Novita são a via mais prática.
A licença MIT cobre uso em produtos comerciais?
Sim. A licença MIT do GLM-5.2 não tem restrições regionais nem cláusulas de uso não-comercial. Qualquer empresa pode integrar os pesos em seus produtos. A única ressalva é que a licença cobre os pesos do modelo base; fine-tunes e adaptadores publicados por terceiros podem ter licenças diferentes.
O que é IndexShare na prática?
É uma técnica de eficiência para atenção esparsa em contextos longos. Em vez de calcular, para cada camada, quais tokens são relevantes — operação que domina o custo computacional em 1 milhão de tokens —, o modelo calcula esse índice uma vez e o reutiliza nas três camadas seguintes. O custo de FLOPs cai 2,9 vezes. A hipótese é que tokens relevantes mudam pouco entre camadas adjacentes, o que o paper valida empiricamente.
Como o GLM-5.2 se compara ao DeepSeek V4-Pro?
Os dois são os modelos MoE open-weight de maior destaque de junho. O DeepSeek V4-Pro tem mais parâmetros ativos (49 bilhões vs. 40 bilhões) e preço mais agressivo ($0,87 por milhão de tokens de saída vs. $4,40 do GLM via API). Em benchmarks diretos, os resultados variam por tarefa; nenhum domina o outro em todas as dimensões. A escolha depende do caso de uso e do custo de inferência aceitável.
Leia também
How Businesses Are Building Specialized AI They Can Trust
Fika Jobs raises $4M to build a video-first hiring platform where AI agents interview candidates
Build real agentic apps using CUGA: two dozen working examples on a lightweight harness