Editorial LLMs & Texto

Ornith-1.0: o modelo aberto que aprende a escrever seu próprio treino

A startup DeepReinforce lançou uma família de modelos de código — de 9B a 397B de parâmetros — que dispensa roteiros de treino desenhados por humanos: o próprio modelo aprende a construir seu processo de tentativa e erro. O maior chegou a 82,4 no SWE-Bench Verified, atrás só do Claude Opus 4.8.

Ponto Zero ·

Todo agente de código treinado por reforço segue um roteiro escrito por engenheiros: em que ordem explorar os arquivos, quando rodar os testes, como reagir a um erro de compilação. Esse roteiro tem nome — scaffold, ou "andaime" — e normalmente é fixo, ajustado à mão, repetido em milhões de tentativas de treino sem nunca mudar de forma. É a parte do processo que ninguém treina: só se programa.

A DeepReinforce, laboratório fundado pelo pesquisador Jiwei Li, decidiu tratar essa premissa como um problema em aberto. Em 25 de junho de 2026, a empresa lançou o Ornith-1.0, uma família de modelos de código sob licença MIT em que o andaime deixa de ser fixo: ele também é aprendido, ajustado a cada rodada de treino junto com a solução que o modelo produz.

O que é, afinal, um "scaffold" de treino

Em RLreinforcement learning, ou aprendizado por reforço, a técnica em que um modelo tenta resolver uma tarefa, recebe uma nota pelo resultado e ajusta seus parâmetros para tentar melhor da próxima vez —, o scaffold é a estrutura que organiza a tentativa: que ferramentas o agente pode chamar, em que sequência, com que critério de parada. Pense nele como o roteiro de um teste de laboratório, enquanto a solução é o experimento em si.

O problema é que um roteiro único raramente serve para toda tarefa. Corrigir um bug de uma linha e refatorar um módulo inteiro pedem estratégias de busca bem diferentes — mas, até agora, os dois passavam pelo mesmo andaime, porque desenhar um roteiro sob medida para cada tipo de problema exigiria um engenheiro humano por trás de cada categoria.

Como o Ornith-1.0 aprende a se auto-organizar

O treino do Ornith-1.0 acontece em dois estágios dentro de cada passo de reforço. Primeiro, o modelo lê a tarefa e o scaffold usado na tentativa anterior, e propõe uma versão refinada dele. Depois, usa esse scaffold recém-criado para gerar a solução propriamente dita. Os dois — roteiro e resultado — são otimizados juntos, com uma variante de GRPO (Group Relative Policy Optimization, um método de RL que compara várias tentativas entre si em vez de julgar cada uma isoladamente) rodando em pipeline assíncrono para acelerar o treino em escala.

Na prática, isso significa que o próprio modelo descobre, por tentativa e recompensa, que tarefas de depuração pedem verificação incremental e tarefas de arquitetura pedem exploração mais ampla antes de comprometer uma solução — sem que ninguém tenha codificado essa distinção à mão.

A família foi construída em cima de bases já existentes: as versões dense (9B e 31B) partem do Gemma 4, do Google, e as MoE (35B e 397B) partem do Qwen 3.5, da Alibaba — ambos sob Apache 2.0, o que valida a licença MIT final do Ornith. MoE (Mixture-of-Experts, mistura de especialistas) é a arquitetura em que só uma fração da rede é ativada por token processado: no modelo de 397B, por exemplo, apenas uma parcela pequena entra em ação a cada vez, o que barateia a inferência frente ao tamanho total anunciado.

Os números que sustentam a conversa

O carro-chefe, Ornith-1.0-397B, ficou perto do topo dos benchmarks de código agêntico — a categoria de tarefas em que o modelo não só responde, mas age: navega repositórios, edita múltiplos arquivos, roda comandos de terminal e itera até fechar o problema.

  • SWE-Bench Verified (resolver issues reais de repositórios open source): 82,4 para o Ornith-1.0-397B, contra 87,6 do Claude Opus 4.8 e 80,8 do Claude Opus 4.7.
  • Terminal-Bench 2.1 (tarefas completas dentro de um terminal): 77,5, ante 85 do Opus 4.8 e 70,3 do Opus 4.7.
  • Ornith-1.0-35B (MoE menor): 64,2 no Terminal-Bench 2.1 — à frente de modelos abertos de porte comparável.
  • Ornith-1.0-9B (dense, roda em uma única GPU de consumo): 69,4 no SWE-Bench Verified e 43,1 no Terminal-Bench 2.1, resultado que se aproxima de modelos abertos bem maiores.
  • Licença: MIT, sem restrição regional — os pesos, incluindo versões GGUF quantizadas, estão públicos no Hugging Face.

O recorte importa: o Ornith-1.0 não é o melhor modelo de código do mundo — o Opus 4.8, fechado, ainda vence nos dois benchmarks principais. O que ele reivindica é a liderança entre modelos abertos de porte comparável, e chega perto o suficiente dos fechados para tornar a diferença de preço (um modelo baixável e auditável contra uma API fechada) uma variável real na decisão de qualquer equipe.

Quem é a DeepReinforce

A DeepReinforce não é estreante em RL aplicado a tarefas técnicas: o laboratório já havia chamado atenção com o CUDA-L1/L2, uma linha de trabalho em que agentes descobriam, via reforço, otimizações de kernels de GPU que superavam bibliotecas escritas à mão pela própria NVIDIA. O Ornith-1.0 aplica a mesma aposta — deixar a busca por estratégia emergir do treino, em vez de escrevê-la a priori — ao domínio mais amplo da engenharia de software agêntica.

Isso dá ao lançamento um lastro que a maioria dos modelos "state of the art" recém-saídos do forno não tem: não é a primeira vez que essa equipe aposta em deixar a máquina desenhar o próprio processo de otimização, e a aposta anterior já havia funcionado.

Limites e o que ainda falta provar

Vale desconfiar de qualquer leitura que ignore o recorte dos números: "estado da arte" aqui é entre modelos abertos de tamanho equivalente, não um recorde absoluto. Em NL2Repo, outro benchmark de código citado pela empresa, o Ornith-1.0-397B marca 48,2 — moderado, e um lembrete de que o salto do auto-scaffolding não se repete com a mesma intensidade em toda tarefa.

Há também a questão da origem: a DeepReinforce é pequena e relativamente nova no radar público, com pouca documentação externa além de um paper de 2025 e do próprio anúncio. Avaliações independentes da comunidade — os primeiros testes práticos, como os do desenvolvedor Simon Willison rodando a versão 35B localmente, foram favoráveis — ainda são recentes demais para confirmar se os ganhos se sustentam fora dos benchmarks que a própria empresa escolheu reportar.

Por ora, o que o Ornith-1.0 demonstra de forma concreta é que o roteiro de treino de um agente de código não precisa mais ser um artefato fixo, escrito uma vez e reaproveitado para sempre — ele pode ser mais uma coisa que o modelo aprende a fazer melhor, rodada após rodada.

Perguntas Frequentes

O que significa "self-scaffolding" no Ornith-1.0?

É a capacidade do modelo de gerar, durante o próprio treino por reforço, o roteiro (scaffold) que orienta como ele vai tentar resolver uma tarefa — em vez de seguir um roteiro fixo escrito por engenheiros humanos. O roteiro e a solução são otimizados juntos, a cada rodada.

O Ornith-1.0 é melhor que o Claude Opus?

Não no geral. O Claude Opus 4.8 continua à frente nos dois principais benchmarks (87,6 contra 82,4 no SWE-Bench Verified; 85 contra 77,5 no Terminal-Bench 2.1). A liderança do Ornith-1.0 é entre modelos abertos de porte comparável, com a vantagem de custo e auditabilidade que isso traz.

Dá para rodar o Ornith-1.0 em um computador comum?

A versão 9B dense foi pensada para isso — roda em uma única GPU de consumo e ainda assim chega a 69,4 no SWE-Bench Verified. Já o 397B MoE exige infraestrutura de servidor; há versões quantizadas (FP8 e GGUF) que reduzem essa exigência.

Por que a licença MIT importa aqui?

Porque permite usar, modificar, hospedar e comercializar o modelo livremente, sem depender de uma API fechada nem de aprovação regional — algo que os próprios modelos-base (Gemma 4 e Qwen 3.5), sob Apache 2.0, já permitiam e que a DeepReinforce preservou no lançamento final.

compartilhar: