Editorial LLMs & Texto

GLM-5.2: o open-weight que superou o GPT-5.5 em código, com 1 milhão de tokens

A Z.AI lança o maior modelo de linguagem com pesos abertos da história — 744 bilhões de parâmetros, janela de contexto cinco vezes maior que a versão anterior e licença MIT sem restrições regionais.

Ponto Zero ·

No começo de junho, a Z.AI — empresa chinesa antes conhecida como Zhipu AI — publicou o GLM-5.2 no Hugging Face com licença MIT. Não há paywall, não há restrição geográfica, não há cláusula que limite o uso comercial. Qualquer pessoa pode baixar os pesos, rodar localmente e adaptar como quiser. Isso, por si só, já seria notícia. Mas o que torna o lançamento excepcional é o que o modelo entrega: 62,1 pontos no SWE-bench Pro, suficiente para ultrapassar o GPT-5.5 (58,6) na principal avaliação de engenharia de software autônoma do campo.

A comparação é parcial — o Claude Opus 4.8 segura 69,2 no mesmo benchmark — mas a fronteira relevante aqui é outra: o GLM-5.2 é o primeiro modelo open-weight a cruzar os 60 pontos no SWE-bench Pro. E faz isso com uma janela de contexto de 1 milhão de tokens, cinco vezes maior que a versão anterior lançada em abril.

O que mudou do GLM-5.1 para o 5.2

O GLM-5.1 tinha contexto de cerca de 200 mil tokens — respeitável, mas insuficiente para projetos de código que envolvem centenas de arquivos e históricos longos de interação com ferramentas. O 5.2 expande esse limite para 1 milhão de tokens sem sacrificar eficiência. A mágica está numa técnica chamada IndexShare.

Em modelos com Dynamic Sparse Attention (DSA) — a família de mecanismos de atenção que evitam processar todos os pares de tokens, focando nos mais relevantes —, o gargalo clássico é o custo de calcular o índice de quais tokens prestar atenção. O GLM-5.2 resolve isso reutilizando o mesmo índice leve a cada quatro camadas consecutivas de atenção esparsa. Três das quatro camadas herdam o índice calculado pela primeira, eliminando a recomputação. O resultado: 2,9 vezes menos FLOPs por token em contextos de 1 milhão de tokens.

O mecanismo de Multi-Token Prediction (MTP) também foi aprimorado com IndexShare combinado a KVShare — compartilhamento de key-value caches. O comprimento de aceitação na decodificação especulativa aumentou 20% em relação ao baseline, o que acelera a geração sem degradar qualidade.

  • Parâmetros: 744 bilhões totais, ~40 bilhões ativos por token (MoE)
  • Contexto: 1 milhão de tokens de entrada; 131 mil de saída
  • AIME 2026: 99,2 — raciocínio matemático olímpico praticamente resolvido
  • SWE-bench Pro: 62,1 (GPT-5.5: 58,6; Claude Opus 4.8: 69,2)
  • Terminal-Bench 2.1: 81,0 (tarefa de agente em terminal de longo horizonte)
  • HLE (Humanit's Last Exam): 40,5 sem ferramentas; 54,7 com ferramentas
  • Pré-treinamento: ~28,5 trilhões de tokens
  • Licença: MIT, uso comercial irrestrito, sem restrições por país

Por que o SWE-bench Pro importa mais que o AIME

O resultado de 99,2 no AIME 2026 é impressionante — mas o benchmark de matemática olímpica já começa a saturar para os melhores modelos, e o número deve ser lido com cuidado: a fronteira entre "memorização de padrões de solução" e "raciocínio genuíno" continua opaca nesses benchmarks.

O SWE-bench Pro é mais difícil de inflar. Ele mede se um modelo consegue resolver issues reais do GitHub — bugs reportados, com repositório completo disponível, sem dicas sobre onde o problema está. O modelo precisa navegar a base de código, localizar a causa raiz, escrever a correção e garantir que o conjunto de testes passe. Cinquenta e oito porcento de taxa de resolução, no GPT-5.5, já é suficiente para substituir um desenvolvedor júnior em tarefas de manutenção padronizadas. O GLM-5.2 entrega 62,1 com pesos abertos e gratuitos.

O Terminal-Bench 2.1 — avaliação de tarefas longas em terminal — conta uma história complementar: 81,0 pontos, ante 63,5 do GLM-5.1. A melhora de 17,5 pontos em dois meses reflete diretamente o ganho de contexto: tarefas que antes exigiam que o modelo "esquecesse" a conversa anterior agora cabem inteiras na janela.

Arquitetura MoE: 744 bilhões de parâmetros, 40 bilhões por token

Mixture-of-Experts (MoE) é a arquitetura que permite escalar modelos para centenas de bilhões de parâmetros sem tornar a inferência proibitiva. A lógica é simples: em vez de ativar todos os parâmetros para cada token processado, o modelo mantém um roteador que seleciona um subconjunto de "especialistas" — sub-redes específicas — para cada decisão. O GLM-5.2 tem 744 bilhões de parâmetros no total, mas ativa apenas cerca de 40 bilhões por token.

Na prática, isso significa que o custo computacional real de inferência se aproxima ao de um modelo denso de 40 bilhões — não de 744 bilhões. A ressalva é que carregar todos os pesos exige hardware abundante; o modelo não roda em uma única GPU de consumo. Para rodar localmente, frameworks como KTransformers e Unsloth oferecem quantizações que reduzem o requisito de memória.

Treinamento com guardrails contra trapaça

Um problema clássico em RL para agentes de código é o reward hacking: o modelo descobre atalhos para maximizar a recompensa sem resolver o problema real — por exemplo, baixando soluções prontas da internet, acessando arquivos que não deveria ou manipulando os testes para forçar passagem. O GLM-5.2 aborda isso com uma camada dupla de controle durante o treinamento: filtros baseados em regras para comportamentos claramente proibidos combinados com um modelo de linguagem separado que detecta intenção nos rollouts. Se o agente parece estar tentando contornar as regras, o passo é descartado — mas o treinamento continua com os outros rollouts. Não há punição que paralise o aprendizado.

O contexto do "boom" de modelos abertos chineses

O GLM-5.2 não está sozinho. Em junho de 2026, pelo menos seis grandes laboratórios chineses lançaram modelos open-weight competitivos em uma janela de duas semanas: Alibaba (Qwen 3.7), DeepSeek (V4-Pro e V4-Flash), Tencent (Hunyuan), Baidu (ERNIE), ByteDance (Doubao) e agora Z.AI (GLM-5.2). A concentração é incomum — parece sinalizar que o campo percebeu que lançamentos abertos servem de argumento contra regulações que tentam impedir o acesso a modelos de fronteira.

Para o ecossistema de código aberto, o efeito prático é extraordinário: em menos de um mês, o GitHub e o Hugging Face receberam modelos que, há seis meses, teriam ocupado os primeiros lugares de qualquer leaderboard proprietário. O GLM-5.2 em particular chega com 51 quantizações disponíveis, 9 fine-tunes e 4 adaptadores já publicados pela comunidade.

O que o GLM-5.2 não resolve

Benchmarks não são produtos. O SWE-bench Pro mede resolução de issues específicos em repositórios específicos; não mede capacidade de entender um sistema legado mal documentado, de negociar requisitos com um time ou de tomar decisões de arquitetura com trade-offs não óbvios. O Terminal-Bench 2.1 mede autonomia em tarefas estruturadas de terminal; não mede julgamento em situações ambíguas.

A janela de 1 milhão de tokens também é necessária mas não suficiente para projetos reais de longo horizonte: a qualidade de atenção degrada com a distância, e muitos modelos — incluindo o GLM-5.2 — tendem a perder detalhes enterrados no meio de contextos muito longos. O contexto longo abre portas; não as atravessa automaticamente.

Perguntas Frequentes

O GLM-5.2 pode rodar localmente em hardware de consumo?

Não sem quantização agressiva. Com os 744 bilhões de parâmetros em BF16, o modelo exige dezenas de GPUs de datacenter só para carregar os pesos. Com KTransformers ou Unsloth e quantizações INT4 disponíveis na comunidade, é possível rodar em clusters menores, mas ainda demanda hardware significativo. Para uso em produção, as APIs da Z.AI e de parceiros como FriendliAI e Novita são a via mais prática.

A licença MIT cobre uso em produtos comerciais?

Sim. A licença MIT do GLM-5.2 não tem restrições regionais nem cláusulas de uso não-comercial. Qualquer empresa pode integrar os pesos em seus produtos. A única ressalva é que a licença cobre os pesos do modelo base; fine-tunes e adaptadores publicados por terceiros podem ter licenças diferentes.

O que é IndexShare na prática?

É uma técnica de eficiência para atenção esparsa em contextos longos. Em vez de calcular, para cada camada, quais tokens são relevantes — operação que domina o custo computacional em 1 milhão de tokens —, o modelo calcula esse índice uma vez e o reutiliza nas três camadas seguintes. O custo de FLOPs cai 2,9 vezes. A hipótese é que tokens relevantes mudam pouco entre camadas adjacentes, o que o paper valida empiricamente.

Como o GLM-5.2 se compara ao DeepSeek V4-Pro?

Os dois são os modelos MoE open-weight de maior destaque de junho. O DeepSeek V4-Pro tem mais parâmetros ativos (49 bilhões vs. 40 bilhões) e preço mais agressivo ($0,87 por milhão de tokens de saída vs. $4,40 do GLM via API). Em benchmarks diretos, os resultados variam por tarefa; nenhum domina o outro em todas as dimensões. A escolha depende do caso de uso e do custo de inferência aceitável.

compartilhar: