Editorial LLMs & Texto

SkillOpt: como ensinar agentes de IA a melhorar suas próprias habilidades — +23 pontos em GPT-5.5

Um novo framework permite que agentes otimizem documentos de habilidade por meio de edições textuais graduais guiadas por desempenho — e os ganhos transferem entre modelos, benchmarks e ambientes de execução.

Ponto Zero ·

Agentes de IA têm habilidades. Não habilidades no sentido metafórico — habilidades no sentido técnico: documentos de texto que descrevem como o agente deve se comportar numa classe de tarefas. Esses documentos funcionam como instruções de sistema especializadas: o agente os lê antes de executar uma tarefa e usa as orientações para estruturar sua abordagem.

A pergunta do SkillOpt é simples e prática: dado que o desempenho de um agente depende da qualidade dessas habilidades, podemos otimizá-las automaticamente? Treinar os pesos do modelo é caro e lento. Mas editar documentos de texto — isso qualquer modelo de linguagem sabe fazer. O SkillOpt usa o desempenho do agente em tarefas reais como sinal para melhorar iterativamente seus próprios documentos de habilidade.

Com 246 upvotes no Hugging Face — o paper mais votado do dia — os resultados chamaram atenção: +23,5 pontos em GPT-5.5, +24,8 pontos no loop Codex e +19,1 pontos em Claude Code, medidos em seis benchmarks com 52 células de avaliação distintas.

O que é um "documento de habilidade"

Em sistemas agenticos modernos, habilidades são arquivos de texto que descrevem estratégias de alto nível para categorias de tarefas. Um agente de engenharia de software pode ter uma habilidade para "escrever testes", outra para "fazer refatoração de código", outra para "depurar erros de tipo". Cada habilidade é lida como contexto antes que o agente comece a trabalhar.

A qualidade da habilidade determina muito do desempenho. Uma habilidade vaga ("escreva testes") produz comportamento inconsistente. Uma habilidade bem formulada ("para cada função pública, identifique os casos de borda, crie testes parametrizados, e cubra explicitamente entradas nulas e valores extremos") orienta o agente de forma muito mais eficaz.

Escrever habilidades boas manualmente exige expertise e iteração humana — o equivalente a engenharia de prompt especializada, mas para comportamento agentico de longo horizonte. O SkillOpt tenta automatizar essa iteração.

Rollouts, pontuações e edições conservadoras

O ciclo do SkillOpt funciona assim: o agente executa a tarefa usando a habilidade atual e recebe uma pontuação. Essas execuções pontuadas — "rollouts" — são agrupadas e enviadas para um otimizador de texto. O otimizador analisa onde o desempenho foi bom e onde foi ruim, e propõe edições pontuais no documento de habilidade: adicionar uma instrução, remover uma orientação ambígua, substituir uma formulação por outra mais precisa.

O design conservador é deliberado. O sistema não reescreve a habilidade inteira — gera "edições limitadas de adicionar/deletar/substituir num único documento de habilidade". Isso preserva o que já funciona e isola o efeito de cada mudança. Um buffer de edições rejeitadas previne que o modelo repita mudanças que já demonstraram piorar o desempenho.

Um conjunto de testes isolado — separado dos rollouts usados para otimização — valida cada edição antes de incorporá-la. Isso evita overfitting ao conjunto de exemplos de treinamento, um risco real quando o modelo otimizador e o agente compartilham conhecimento base similar.

  • Método: edições textuais iterativas em documentos de habilidade, guiadas por rollouts pontuados
  • Resultados: +23,5 pts em GPT-5.5 · +24,8 pts no loop Codex · +19,1 pts em Claude Code
  • Escala de avaliação: 52 células — 7 modelos alvo × 3 ambientes (chat, Codex, Claude Code) × 6 benchmarks
  • Transferência: habilidades otimizadas transferem entre modelos, ambientes de execução e benchmarks similares sem otimização adicional
  • Estabilidade: buffer de edições rejeitadas + validação em conjunto de teste isolado

A transferência como resultado mais importante

Os ganhos absolutos são expressivos — 23 pontos em GPT-5.5 é um número grande. Mas o resultado mais relevante para uso prático é a transferência: habilidades otimizadas numa combinação de modelo e ambiente funcionam em combinações diferentes sem retreinamento.

Isso muda o custo-benefício da otimização. Se eu otimizar uma habilidade para GPT-5.5 num ambiente de chat direto, ela vai melhorar o desempenho do mesmo agente rodando em Codex? Segundo o SkillOpt, sim — e os dados em 52 células de avaliação sustentam essa afirmação.

Por que transfere? Porque a otimização melhora a formulação da habilidade em si — torna as instruções mais claras, mais específicas, mais estruturadas. Essas qualidades de texto são úteis para qualquer modelo de linguagem suficientemente capaz de segui-las, independentemente de ser GPT, Claude ou outra arquitetura.

Isso não é fine-tuning — e a distinção importa

Fine-tuning muda os pesos do modelo. É caro, exige dados rotulados, pode degradar desempenho em tarefas não relacionadas e não é reversível sem guardar checkpoints. SkillOpt não toca nos pesos — opera inteiramente no espaço de texto das habilidades.

Isso significa que o método funciona com modelos proprietários via API (GPT-5.5 e Claude Code aparecem nos experimentos), sem acesso aos pesos ou necessidade de permissão para modificar o modelo. O custo de otimização é o custo dos rollouts — chamadas de API normais — não o custo de treinamento de GPU.

A desvantagem é que a abordagem depende da capacidade do modelo de seguir habilidades bem escritas. Para modelos muito pequenos, a qualidade do documento de habilidade pode ter menos impacto do que para modelos maiores. Os experimentos foram todos com modelos de ponta — a eficácia em modelos menores não está estabelecida.

O que vem a seguir

SkillOpt funciona com habilidades pré-definidas por categoria de tarefa. A extensão natural é aprendizado de novas habilidades do zero — não apenas otimizar habilidades existentes, mas descobrir que habilidades são necessárias a partir de experiência de campo. Isso aproximaria o sistema de agentes que melhoram de forma contínua sem curação humana constante.

O paper indica que os autores planejam investigar isso, mas o trabalho atual é limitado a otimização de habilidades pré-existentes. O código não está disponível publicamente ainda — o repositório referenciado no paper promete release, mas sem data confirmada.

Perguntas Frequentes

O que é um rollout em aprendizado por reforço / sistemas agenticos?

Um rollout é uma execução completa de um agente numa tarefa — do início ao fim, incluindo todas as decisões intermediárias. Coletar rollouts e pontuar o resultado final permite aprender quais sequências de ações levam a bons resultados, sem precisar de supervisão passo a passo.

O SkillOpt é relacionado a RLHF ou PPO?

Conceitualmente sim — usa desempenho como sinal de aprendizado, assim como RL com feedback humano. Mas opera num espaço diferente: edita texto de habilidade em vez de ajustar pesos do modelo por gradiente. Não precisa de diferenciabilidade, o que permite aplicação direta a modelos fechados via API.

O que são "52 células de avaliação"?

Uma célula é uma combinação específica de modelo-alvo, ambiente de execução e benchmark. Com 7 modelos, 3 ambientes e 6 benchmarks o produto seria 7×3×6 = 126, mas nem todas as combinações foram avaliadas — 52 células representa o subconjunto testado no paper.

Posso usar o SkillOpt para melhorar meu agente que usa Claude Code?

O framework foi testado especificamente com Claude Code e mostrou +19,1 pontos. A aplicação prática depende de ter rollouts coletados, um sistema de pontuação para as tarefas do seu domínio e acesso ao código do SkillOpt quando for publicado. A abordagem geral é agnóstica ao modelo subjacente.

compartilhar: