Editorial Robótica & RL

ASPIRE: os robôs da NVIDIA que escrevem, testam e corrigem o próprio código de controle

Em vez de treinar uma política com milhões de exemplos, o ASPIRE faz o robô gerar seu próprio programa de controle, diagnosticar por que ele falhou e guardar o reparo numa biblioteca de habilidades reutilizável — elevando de 20% para 92% o sucesso numa tarefa de entrega entre dois braços.

Ponto Zero · 04 de janeiro de 2026

Programar um robô para manipular objetos do mundo real é um exercício de paciência com a física. Cada tarefa nova — pegar uma lata, empurrar uma gaveta, entregar um objeto de um braço a outro — exige orquestrar percepção multimodal, dinâmica de contato e uma quantidade impressionante de formas de dar errado. O laboratório GEAR da NVIDIA, em parceria com pesquisadores da Universidade de Michigan, UIUC, UC Berkeley e Carnegie Mellon, propôs uma saída: em vez de escrever esse controle à mão, deixar o próprio robô escrever, testar e consertar seu código.

O projeto se chama ASPIRE — "Agentic Skills Discovery for Robotics", descoberta agêntica de habilidades para robótica — e o resultado mais chamativo é concreto: numa tarefa de entrega bimanual (um braço passando um objeto para o outro), a taxa de sucesso saltou de 20% para 92%.

O problema com "código como política"

Uma linha de pesquisa recente em robótica usa LLMs para gerar diretamente o programa de controle de um robô — a ideia de "código como política" (code-as-policy): em vez de uma rede neural que aprende por tentativa e erro, um modelo de linguagem escreve um script que comanda motores e garras. É rápido de gerar, mas frágil: o programa costuma falhar diante de qualquer variação — um objeto em ângulo diferente, um atrito inesperado — e, sem um mecanismo de diagnóstico, o robô simplesmente repete o mesmo erro.

O ASPIRE ataca exatamente esse ponto cego: dá ao robô a capacidade de perceber por que um programa falhou e de usar esse diagnóstico para gerar a próxima tentativa.

Como funciona o ciclo de autoaperfeiçoamento

O sistema tem três peças que se encaixam. Primeiro, um motor de execução em malha fechada registra, a cada movimento primitivo, um rastro multimodal — imagens-chave em RGB, candidatos de preensão, resultados do planejamento de movimento — que um agente de código baseado em LLM usa para diagnosticar exatamente onde e por que a tentativa falhou.

Segundo, uma busca evolutiva gera, a cada rodada, um conjunto diverso de programas candidatos, condicionando a próxima geração aos sobreviventes da rodada anterior e aos rastros de falha residual — uma espécie de seleção natural aplicada a scripts de controle.

Terceiro, e talvez o mais importante para o longo prazo, uma biblioteca de habilidades vai crescendo continuamente: cada assinatura de falha resolvida e sua estratégia de reparo ficam guardadas como referência em contexto para tarefas futuras, numa arquitetura de coordenador e atores. O robô não aprende só a fazer uma tarefa — aprende a diagnosticar problemas de forma reutilizável.

      20% → 92% de sucesso na entrega bimanual em simulação (Robosuite)
56% → 88% de sucesso em navegar e pegar um rádio, tarefa de longo horizonte (BEHAVIOR-1K)
+77 p.p. de ganho sobre a melhor referência em manipulação de objetos (LIBERO-Pro)
31% vs. 3,8% e 5% — desempenho zero-shot em tarefas inéditas de longo horizonte, contra as referências CaP-Agent0 e π0.5
13/20 → 19/20 em levantar uma lata de refrigerante num robô real, cortando o custo em tokens de ~62 milhões para ~6,6 milhões

    

Testado em simulação e no mundo real

O time validou o ASPIRE em quatro frentes: LIBERO-Pro (robustez de manipulação de curto horizonte), Robosuite (tarefas de contato rico com um ou dois braços), BEHAVIOR-1K (manipulação doméstica móvel de longo horizonte) e experimentos com robôs reais, numa estação bimanual baseada nas plataformas YAM e Franka.

O caso mais convincente talvez seja o de empurrar e puxar uma gaveta num robô físico: a taxa de sucesso saiu de 0 em 20 tentativas para 11 em 20 depois que o sistema pôde recorrer à biblioteca de habilidades já validadas — a diferença entre um robô que nunca consegue e um que acerta mais da metade das vezes.

O que cada peça contribui, isoladamente

Os pesquisadores também testaram os componentes em separado, o que ajuda a entender de onde vem o ganho. Só o motor de execução em malha fechada — sem busca evolutiva nem biblioteca de habilidades — já eleva a taxa de sucesso média de 14% para 62%. Adicionar a busca evolutiva empurra esse número para 72%. Ou seja: a maior parte do ganho vem de dar ao robô a capacidade de diagnosticar corretamente por que algo deu errado — a busca por variação ajuda, mas o diagnóstico é o que resolve.

Limites: ainda não é código aberto

Vale um alerta de cautela típico de pesquisa recém-publicada: até a divulgação do artigo, em 30 de junho de 2026, o código do ASPIRE não estava disponível — a página do projeto lista apenas "código em breve", sem repositório público no GitHub ou na Hugging Face. Os números são impressionantes, mas ainda não há como a comunidade reproduzir os resultados de forma independente. Vale notar também que o GEAR da NVIDIA publicou, na mesma janela, um projeto irmão chamado ENPIRE, voltado a autoaperfeiçoamento de políticas de robôs no mundo real — os dois não devem ser confundidos, embora compartilhem espírito e equipe.

Perguntas Frequentes

O que significa ASPIRE?

ASPIRE é a sigla para "Agentic Skills Discovery for Robotics" — descoberta agêntica de habilidades para robótica. É um sistema que faz um robô gerar, testar, diagnosticar e corrigir seu próprio código de controle, em vez de depender de um programador humano ou de treinamento por reforço tradicional.

O ASPIRE usa aprendizado por reforço clássico?

Não no sentido tradicional. Em vez de ajustar pesos de uma rede neural por tentativa e erro, o ASPIRE usa um agente baseado em LLM que escreve programas de controle, uma busca evolutiva que gera variações a partir de tentativas anteriores, e uma biblioteca de habilidades que acumula soluções validadas para reutilização futura.

Os resultados já foram testados fora de simulação?

Sim, parcialmente. Além dos ambientes simulados LIBERO-Pro, Robosuite e BEHAVIOR-1K, a equipe testou o sistema numa estação robótica real de dois braços, com ganhos como 13/20 para 19/20 em levantar uma lata e 0/20 para 11/20 em empurrar e puxar uma gaveta.

Dá para usar o ASPIRE hoje?

Ainda não de forma aberta. Até a publicação do artigo, em 30 de junho de 2026, a equipe da NVIDIA GEAR não havia liberado o código — a página do projeto indica que o repositório está "em breve".

O que o ASPIRE demonstra não é que robôs vão programar a si mesmos amanhã de forma autônoma e irrestrita — é algo mais modesto e, por isso, mais imediatamente útil: que dar a um sistema a capacidade de diagnosticar corretamente o próprio erro vale, sozinho, mais do que gerar dezenas de tentativas às cegas. Em robótica, entender por que algo falhou continua sendo mais valioso do que tentar de novo mais rápido.

// relacionados

ASPIRE: os robôs da NVIDIA que escrevem, testam e corrigem o próprio código de controle

O problema com "código como política"

Como funciona o ciclo de autoaperfeiçoamento

Testado em simulação e no mundo real

O que cada peça contribui, isoladamente

Limites: ainda não é código aberto

Perguntas Frequentes

O que significa ASPIRE?

O ASPIRE usa aprendizado por reforço clássico?

Os resultados já foram testados fora de simulação?

Dá para usar o ASPIRE hoje?

Leia também

NVIDIA AI Introduces ASPIRE: A Self-Improving Robotics Framework Reaching 31% Zero-Shot on LIBERO-Pro Long Tasks

Mistral AI Releases Leanstral 1.5: An Apache-2.0 Lean 4 Code Agent Model Solving 587 of 672 PutnamBench Problems

Designing a Schema-Guided Invoice Intelligence Pipeline with lift-pdf for Accounts-Payable Extraction, Validation, and Ledger Generation

UWORLD U1: a UBTECH lança o primeiro humanoide "ultra-biônico" em série — e a dança que expôs os limites