Ornith-1.0: o modelo que constrói o próprio andaime antes de aprender a programar
A DeepReinforce abriu quatro modelos de código sob licença MIT com uma ideia incomum: durante o treino por reforço, a rede não recebe um arcabouço pronto — ela gera o seu.
Quando se treina um modelo de IA para programar com aprendizado por reforço, há sempre um andaime invisível: o arcabouço que decide como o modelo tenta resolver um problema, em que ordem chama ferramentas, como verifica o próprio trabalho. Esse andaime costuma ser desenhado por humanos, fixo, igual para toda tarefa. O Ornith-1.0, lançado em 25 de junho pela DeepReinforce, inverte a premissa: deixa o modelo construir o próprio andaime.
É uma ideia que soa quase recursiva — e é exatamente esse o ponto. Em vez de aprender só a solução, a rede aprende como buscar a solução.
O que é "auto-andaime"
No aprendizado por reforço aplicado a código, o modelo tenta resolver um problema, recebe uma recompensa se acertar e ajusta seus pesos para acertar mais vezes. A qualidade desse aprendizado depende muito do scaffold, o arcabouço que estrutura a tentativa: quais passos dar, que testes rodar, como navegar pelo repositório. Um andaime ruim limita o quanto o modelo consegue aprender, por melhor que seja.
A proposta da DeepReinforce — que chama de auto-andaime (self-scaffolding) — é fazer o modelo gerar, junto com a tentativa de solução, o próprio arcabouço específico daquela tarefa. Otimizando os dois em conjunto, a rede pode descobrir trajetórias de busca melhores do que qualquer estrutura fixa desenhada à mão permitiria. O andaime deixa de ser uma muleta externa e vira parte do que se aprende.
- Família: quatro modelos — 9B denso (para borda), 31B denso, 35B MoE e um carro-chefe de 397B MoE.
- Base: construídos sobre Gemma 4 e Qwen 3.5 (ambos Apache 2.0); pesos abertos sob licença MIT.
- Ideia central: durante o RL, o modelo gera tanto as soluções quanto o arcabouço que guia a busca, otimizando os dois em conjunto.
- Desempenho declarado: 82,4 no SWE-Bench Verified e 62,2 no SWE-Bench Pro, mais difícil — números reportados pela própria DeepReinforce.
Quem é a DeepReinforce
A DeepReinforce não é nome de primeira viagem em aprendizado por reforço. A equipe já assinou trabalhos abertos como o CUDA-L1 e o laço de otimização de agentes IterX. O Ornith-1.0 é a continuação natural dessa linha: levar técnicas de RL para o domínio de agentes de código, onde a recompensa — "o teste passou ou não?" — é objetiva e abundante.
A linha de quatro tamanhos é deliberada. O 9B denso cabe numa GPU modesta e mira borda e uso local; o 397B MoE é o flagship, com a arquitetura de mixture-of-experts que ativa só uma fração dos parâmetros por token, equilibrando capacidade e custo. Entre eles, opções para quem quer afinar a relação entre desempenho e hardware.
O que dizem os primeiros testes
Os números de benchmark vêm da própria DeepReinforce e pedem o ceticismo de praxe — 82,4 no SWE-Bench Verified é uma marca alta, na faixa dos melhores modelos de código, e benchmarks autorreportados merecem confirmação independente. O SWE-Bench, vale dizer, mede a capacidade de resolver issues reais de repositórios do GitHub; o Verified é a fatia curada de problemas bem definidos, e o Pro, a versão mais difícil.
Avaliações externas começaram a aparecer. O desenvolvedor Simon Willison rodou a variante de 35B (um GGUF de 20 GB) localmente, via LM Studio, e a usou em tarefas de agente multi-passo — busca de código no repositório do Datasette —, com geração a 103 tokens por segundo. Seu veredito preliminar foi contido e positivo: "primeiras impressões muito boas". Ele também notou, com honestidade, que há pouca informação pública sobre a própria DeepReinforce e sobre os detalhes do método.
Por que isso importa
O auto-andaime toca numa fronteira interessante: a de modelos que não apenas executam tarefas, mas moldam o processo pelo qual as resolvem. É um passo na direção de sistemas mais autônomos — e, como toda autonomia, traz a contrapartida de ser mais difícil de inspecionar. Quando o modelo desenha o próprio arcabouço, entender por que ele chegou a uma solução fica menos transparente.
Há também o gesto de abertura. Quatro modelos de código sob MIT, construídos sobre bases abertas, dão à comunidade não só ferramentas utilizáveis, mas um objeto de estudo para uma técnica nova. Se o auto-andaime se confirmar em avaliações independentes, a ideia de otimizar a busca junto com a solução pode escapar do nicho do código e contaminar outras formas de treino por reforço. Por ora, é uma hipótese promissora com pesos na mesa — o melhor lugar para uma ideia ousada começar.
Perguntas Frequentes
O que é "auto-andaime" (self-scaffolding)?
É a técnica em que o modelo, durante o aprendizado por reforço, gera não só a tentativa de solução, mas também o arcabouço que estrutura essa tentativa — os passos, testes e estratégia de busca. Otimizar os dois juntos permite descobrir trajetórias melhores do que um andaime fixo, desenhado por humanos, ofereceria.
Quais são os tamanhos do Ornith-1.0?
São quatro: 9B denso (para borda e uso local), 31B denso, 35B mixture-of-experts e um carro-chefe de 397B MoE. Todos são construídos sobre Gemma 4 e Qwen 3.5 e distribuídos sob licença MIT.
Os benchmarks do Ornith-1.0 são confiáveis?
As marcas de 82,4 no SWE-Bench Verified e 62,2 no SWE-Bench Pro foram reportadas pela própria DeepReinforce e ainda aguardam confirmação independente. Testes externos preliminares, como os de Simon Willison com a variante de 35B, foram positivos mas cautelosos.
O que o SWE-Bench mede?
Mede a capacidade de um modelo resolver issues reais de repositórios do GitHub — entender o problema, editar o código e fazer os testes passarem. O Verified é a fatia curada de problemas bem definidos; o Pro é a versão mais difícil.