GPT-5.6 chega em três: Sol para o difícil, Terra e Luna para o resto
A OpenAI dividiu seu novo carro-chefe em uma família de três modelos e mirou onde a disputa agora se decide: trabalho agêntico longo, código que roda no terminal e custo por token.
Há um detalhe revelador na forma como a OpenAI anunciou o GPT-5.6 em 26 de junho: não houve um modelo. Houve três — Sol, Terra e Luna — vendidos como uma família com a mesma base, mas calibrados para faixas de custo e dificuldade diferentes. É a confissão, em forma de catálogo, de que a pergunta deixou de ser "qual é o modelo mais inteligente?" e passou a ser "qual modelo você consegue pagar para rodar mil vezes por dia?".
O frontier — Sol — foi posicionado para o que a empresa chama de trabalho de raciocínio de fronteira e tarefas agênticas de horizonte longo: o tipo de problema em que o modelo precisa planejar, usar ferramentas, errar, corrigir e seguir por muitos passos sem perder o fio. Terra e Luna são os irmãos pragmáticos — mais baratos, mais rápidos, bons o suficiente para o volume.
O que muda em Sol, de fato
O ganho que a OpenAI escolheu destacar não foi conversa fiada: é o Terminal-Bench 2.1, um teste de fluxos de linha de comando que exige planejamento, iteração e coordenação de ferramentas. Sol marca um novo estado da arte ali — e isso importa porque o terminal é onde um agente de código de verdade trabalha. Não basta escrever a função certa; é preciso rodar o teste, ler o erro, ajustar e repetir. Esse laço fechado é justamente onde os modelos anteriores tropeçavam.
Duas novidades acompanham o lançamento. A primeira é um nível extra de esforço de raciocínio — o max reasoning effort —, que permite ao Sol "pensar" mais antes de responder em tarefas complexas, ao custo de mais tokens e mais tempo. A segunda é o ultra mode, que recruta subagentes para acelerar trabalhos longos: em vez de um único modelo carregando tudo, várias instâncias dividem o problema. É o reconhecimento de que parte do progresso recente não vem de um cérebro maior, e sim de orquestração melhor.
- Sol — frontier de raciocínio e trabalho agêntico; novo SOTA no Terminal-Bench 2.1; US$ 5 / US$ 30 por milhão de tokens (entrada/saída).
- Terra — desempenho competitivo com o GPT-5.5 a metade do custo; US$ 2,50 / US$ 15.
- Luna — o mais rápido e barato da família; US$ 1 / US$ 6.
- Em ExploitBench, Sol fica competitivo com o Mythos Preview usando cerca de 1/3 dos tokens de saída.
- Implantação na Cerebras prevista para julho, com até 750 tokens por segundo.
Por que três modelos, e não um
A lógica é econômica antes de ser técnica. Um agente que executa centenas de passos consome tokens em escala industrial — e a conta de rodar o frontier em cada um deles é proibitiva. Terra existe para entregar o desempenho do GPT-5.5 pela metade do preço; Luna, para o volume em que velocidade e custo importam mais do que o último ponto de benchmark.
Essa segmentação não é exclusividade da OpenAI. O Google fez o mesmo com a dupla Gemini 3.5 Pro e Flash; a disputa aberta empilha modelos como o GLM-5.2 e o DeepSeek V4 oferecendo desempenho de fronteira a preço de pesos abertos. O recado do mercado é claro: a inteligência bruta virou commodity em camadas, e o diferencial migrou para a relação entre capacidade e custo por tarefa concluída.
Capacidade perigosa, medida com cuidado
O dado que merece pausa não é de código, e sim de biologia. Em avaliações SecureBio, Sol pontua 53,5% em Virologia, 60,0% em Biologia Molecular e 68,4% em capacidades ligadas a patógenos humanos — cerca de 9 pontos acima do GPT-5.5. Em ExploitBench, de segurança ofensiva, fica no páreo com o Mythos Preview gastando um terço dos tokens.
São números que a própria OpenAI publica porque medem risco, não só talento. Um modelo melhor em virologia e em exploração de vulnerabilidades é, ao mesmo tempo, mais útil para pesquisa legítima e mais sensível do ponto de vista de segurança — a mesma tensão que, nesta semana, levou o governo americano a regular a liberação do Mythos, da Anthropic. Capacidade de fronteira deixou de ser uma métrica de vaidade; virou objeto de política.
O que ainda não sabemos
O lançamento saiu como preview limitado, restrito a parceiros, com disponibilidade ampla prometida "nas próximas semanas". Falta o de sempre nessas estreias: contexto independente. Os benchmarks são da casa, e benchmark de fabricante mede o que o fabricante escolheu medir. O Terminal-Bench é um bom sinal porque testa o laço completo de execução — mas o veredito real vem do uso em produção, fora do ambiente controlado, onde os agentes ainda colapsam com frequência incômoda.
Vale também olhar o número da Cerebras com sobriedade: 750 tokens por segundo é uma promessa de julho, não uma medição de hoje. A velocidade de inferência virou frente de batalha porque trabalho agêntico longo é, na prática, uma corrida contra o relógio — mas anunciar não é entregar.
O que fica
O GPT-5.6 não vende a ilusão de um salto de inteligência. Vende uma engenharia de portfólio: um modelo caro para o que é difícil, dois baratos para o que é frequente, e ferramentas — esforço máximo, subagentes — para arrancar mais do mesmo cérebro. É um retrato honesto de onde a indústria está. O próximo degrau não será "o modelo que pensa melhor", e sim "o sistema que termina a tarefa pelo menor custo, sem supervisão humana no meio". A família Sol é a aposta da OpenAI de que esse degrau se sobe com divisão de trabalho.
Perguntas Frequentes
Qual a diferença entre Sol, Terra e Luna?
São o mesmo modelo-base calibrado para faixas distintas. Sol é o frontier, para raciocínio difícil e trabalho agêntico longo; Terra equivale ao GPT-5.5 pela metade do custo; Luna é o mais rápido e barato, para volume. Os preços por milhão de tokens vão de US$ 5/US$ 30 (Sol) a US$ 1/US$ 6 (Luna).
O que é o "ultra mode"?
É um modo que recruta subagentes — várias instâncias do modelo dividindo um problema — para acelerar tarefas complexas. Reflete uma tendência: parte do ganho recente vem de orquestração entre modelos, não de um único modelo maior.
Por que a OpenAI publica resultados de biologia e segurança ofensiva?
Porque medem capacidade perigosa. Pontuações altas em virologia ou em exploração de vulnerabilidades indicam tanto utilidade para pesquisa legítima quanto risco de uso indevido — a mesma tensão que levou governos a regular a liberação de modelos de fronteira nesta semana.
Já dá para usar?
No lançamento, não para todos: saiu como preview limitado a parceiros de confiança, com disponibilidade ampla prometida para as semanas seguintes.