Editorial LLMs & Texto

GPT-5.6 Sol vai rodar a 750 tokens por segundo na Cerebras — e a OpenAI reclama do próprio acordo com o governo

Um contrato de mais de US$ 20 bilhões com a Cerebras promete tirar o GPT-5.6 Sol da faixa de 40–120 tokens por segundo típica de GPUs e levá-lo a 750 — quase dez vezes mais rápido. Mas o acesso ao modelo mais capaz da família está sujeito a aprovação caso a caso do governo dos EUA, e a própria OpenAI diz que isso "não deveria virar o padrão".

Ponto Zero · 05 de janeiro de 2026

Há duas notícias dentro do lançamento do GPT-5.6 Sol, e elas puxam em direções opostas. Uma é sobre velocidade: rodar em silício projetado especificamente para inferência pode multiplicar por dez a taxa de geração de texto de um modelo de fronteira. A outra é sobre controle: o mesmo modelo, mais rápido do que nunca, está mais trancado do que nunca — acessível só a clientes aprovados um a um pelo governo americano.

A OpenAI anunciou as duas coisas juntas, e não por acaso. Velocidade é a promessa; a restrição de acesso é a letra miúda que a torna, por ora, uma promessa para poucos.

O que muda com a Cerebras

Modelos de fronteira hoje rodam majoritariamente em clusters de GPU, que entregam algo entre 40 e 120 tokens por segundo em streaming — a velocidade com que o texto aparece na tela, token a token. A Cerebras vende uma arquitetura diferente: em vez de várias GPUs menores conectadas por rede, um único chip "wafer-scale" (literalmente do tamanho de uma bolacha de silício inteira) mantém o modelo próximo o suficiente da memória para eliminar boa parte da espera.

Rodando nesse hardware, a OpenAI promete até 750 tokens por segundo para o GPT-5.6 Sol — uma ordem de grandeza acima da geração por GPU convencional, com os mesmos pesos do modelo. Não é um modelo diferente sendo mais rápido; é o mesmo modelo, só que servido de outra forma.

      750 tokens/s — meta de velocidade do Sol na Cerebras, contra 40–120 tok/s típicos de GPU
US$ 20+ bilhões — valor do contrato plurianual entre OpenAI e Cerebras
750 megawatts — capacidade de computação de inferência reservada no acordo
Sol US$ 5 / US$ 30 por milhão de tokens (entrada/saída) — Terra a US$ 2,50/US$ 15 — Luna a US$ 1/US$ 6
Acesso: restrito a parceiros selecionados via API e Codex, sob aprovação caso a caso do governo dos EUA

    

Três modelos, uma família

O GPT-5.6 chega em três tamanhos, cada um com um perfil de custo e capacidade diferente: Sol é o topo de linha, voltado a tarefas que exigem mais raciocínio; Terra é intermediário; Luna é o mais barato e rápido, pensado para volume alto. É a mesma lógica de segmentação que outros laboratórios já adotaram — oferecer o modelo mais caro para quem precisa do máximo de qualidade e opções mais baratas para o resto do tráfego.

Nos números que a OpenAI divulgou, o Sol Ultra atinge 91,9% no Terminal-Bench 2.1 — um benchmark de tarefas agênticas em linha de comando —, contra 88% do Claude Mythos 5, da Anthropic. Em segurança ofensiva (ExploitBench), a empresa diz empatar com o Mythos usando cerca de um terço dos tokens de saída. Vale o mesmo alerta de sempre: são números da própria fabricante, sem auditoria independente publicada até aqui.

A parte que a OpenAI não queria explicar tão cedo

O preview do Sol, anunciado em 26 de junho, nasceu sob um processo de revisão pré-lançamento voluntário definido pela Casa Branca — o mesmo tipo de mecanismo que, semanas antes, levou o governo americano a suspender globalmente o acesso estrangeiro ao Claude Fable 5 da Anthropic, sob alegação de risco à segurança nacional. O padrão que emerge é o de modelos de fronteira tratados, na prática, como tecnologia de controle de exportação — a mesma categoria regulatória historicamente aplicada a armamento e semicondutores avançados.

A OpenAI não escondeu o desconforto. Em comunicado, a empresa afirmou: "não acreditamos que esse tipo de processo de acesso governamental deveria se tornar o padrão de longo prazo. Ele mantém as melhores ferramentas longe de usuários, desenvolvedores, empresas, defensores de segurança cibernética e parceiros globais que precisam delas". É uma crítica direta ao regime sob o qual a própria empresa está lançando o modelo — algo incomum de se ver por escrito.

Por que isso importa além do hype de velocidade

Dez vezes mais tokens por segundo muda o tipo de produto que se pode construir em cima de um modelo de linguagem. Agentes que precisam iterar várias vezes por segundo, assistentes de voz com latência quase nula, ferramentas de programação que streamam código à velocidade da leitura — tudo isso depende menos de o modelo "saber mais" e mais de ele responder rápido o bastante para parecer instantâneo.

Mas essa infraestrutura de ponta está, por enquanto, disponível para um grupo restrito de clientes aprovados individualmente — não para o desenvolvedor comum abrindo uma conta de API. A velocidade existe; o acesso a ela, não, pelo menos não ainda em escala.

O que ainda fica em aberto

Não há cronograma público de quando — ou se — o acesso ao Sol vai se expandir além do grupo inicial de parceiros. Também não está claro qual critério o governo usa para aprovar um cliente e recusar outro, nem por quanto tempo o regime de revisão caso a caso deve durar. E os benchmarks comparativos com o Mythos 5, como de costume, vêm de testes internos da OpenAI — vale esperar por avaliação independente antes de tratá-los como veredito final.

Perguntas Frequentes

O que é o GPT-5.6 Sol?

É o modelo de topo de uma nova família de três tamanhos (Sol, Terra, Luna) lançada pela OpenAI, com o Sol sendo a versão de maior capacidade, voltada a tarefas que exigem mais raciocínio.

Por que a Cerebras torna o modelo mais rápido?

A Cerebras usa chips "wafer-scale" — processadores do tamanho de uma bolacha de silício inteira — que mantêm o modelo mais próximo da memória, reduzindo a espera entre um token gerado e o próximo. Isso permite até 750 tokens por segundo, contra 40–120 em GPUs convencionais.

Por que o acesso ao modelo é restrito?

O Sol foi lançado sob um processo de revisão pré-lançamento voluntário coordenado pela Casa Branca, que exige aprovação caso a caso de cada cliente para acessar os modelos mais capazes — o mesmo tipo de controle usado historicamente para tecnologia sensível, como armamento e semicondutores.

A OpenAI concorda com essa restrição?

Não integralmente. A empresa declarou publicamente que não acredita que esse modelo de acesso controlado pelo governo deveria se tornar permanente, argumentando que ele mantém ferramentas úteis fora do alcance de usuários e empresas que precisam delas.

O GPT-5.6 Sol resume bem o momento da IA de fronteira em 2026: a engenharia de hardware já resolveu, ou está perto de resolver, o problema da velocidade. O problema que falta resolver é político — quem tem permissão para usar o que a engenharia construiu, e quem decide isso.

// relacionados

GPT-5.6 Sol vai rodar a 750 tokens por segundo na Cerebras — e a OpenAI reclama do próprio acordo com o governo

O que muda com a Cerebras

Três modelos, uma família

A parte que a OpenAI não queria explicar tão cedo

Por que isso importa além do hype de velocidade

O que ainda fica em aberto

Perguntas Frequentes

O que é o GPT-5.6 Sol?

Por que a Cerebras torna o modelo mais rápido?

Por que o acesso ao modelo é restrito?

A OpenAI concorda com essa restrição?

Leia também

A NVIDIA colou um "gêmeo" de difusão num LLM pronto — e ele ficou 2,42x mais rápido

AI private schools sell wealthy US families on personalized learning over traditional education

Mistral CEO Mensch says proprietary AI models give labs a front-row seat to your business processes

Hollywood wants Seedance banned and reportedly also wants to keep using it