NatureBench: agentes de IA conseguem superar o SOTA científico em apenas 17,8% dos casos
Um novo benchmark com 90 tarefas reais de revistas Nature revela que os melhores agentes de codificação funcionam como tradutores metodológicos — não como cientistas.
A pergunta circula há meses pelos corredores de institutos de pesquisa e nos feeds de quem acompanha o avanço dos agentes de IA: eles conseguiriam reproduzir — ou até superar — os resultados publicados em revistas como Nature e Science? O NatureBench, apresentado hoje em forma de preprint com 48 votos no Hugging Face, tentou responder a isso de maneira rigorosa. A resposta não é animadora para os entusiastas da "IA-cientista".
Dez configurações dos modelos mais avançados disponíveis foram testadas contra 90 tarefas multidisciplinares extraídas de publicações da família Nature, num protocolo sem acesso à busca na web. O melhor sistema conseguiu superar o estado da arte publicado em apenas 17,8% dos casos — usando o critério de margem g > 0,1, que descarta melhorias triviais.
O que é o NatureGym e por que ele importa
Comparar o desempenho de agentes em papers científicos parece simples até você tentar fazer isso de forma reproducível. Cada paper tem seu próprio ambiente de execução, dependências e dados. Sem padronização, os resultados não são comparáveis entre si.
O NatureBench resolve isso com o NatureGym: uma pipeline automatizada que constrói, para cada tarefa, um contêiner padronizado a partir do paper original. O pesquisador chega ao experimento já com o ambiente configurado, os dados carregados e a métrica de avaliação definida. A fragmentação ambiental — a principal razão pela qual benchmarks anteriores nessa área tinham credibilidade limitada — é eliminada.
O resultado é um benchmark auditável, com leaderboard público e reprodução mantida pelos autores. Não é um questionário de múltipla escolha sobre ciência: é código executando em dados reais, comparado ao que os próprios pesquisadores publicaram.
Por que 17,8% é um número honesto
Antes de interpretar esse número como "falha", vale entender o que ele mede. O critério g > 0,1 exige que o agente melhore o SOTA publicado por uma margem não trivial — ou seja, não basta replicar o paper, é preciso superá-lo de forma detectável.
Isso já é difícil para humanos. Um paper Nature passou por revisão por pares rigorosa; o resultado publicado geralmente representa meses de iteração por equipes especializadas. Pedir que um agente de IA supere esse resultado em poucas horas de execução, sem acesso à web, é um teste genuinamente exigente.
O que o estudo revela, no entanto, não é apenas a taxa de sucesso — é o mecanismo. Os agentes que conseguem vencer o SOTA fazem isso principalmente convertendo o problema científico numa tarefa de predição supervisionada familiar. Eles não estão inventando métodos novos: estão reconhecendo padrões de problemas que sabem resolver.
- 90 tarefas extraídas de publicações da família Nature, multidisciplinares
- 10 configurações de agentes frontais testadas sob protocolo sem busca na web
- 17,8% de taxa de sucesso (critério g > 0,1: melhoria não trivial sobre o SOTA publicado)
- Principal modo de sucesso: tradução metodológica — converter o problema em tarefa supervisionada conhecida
- Principais causas de falha: escolha errada de método e orçamento de compute insuficiente — não incompreensão do enunciado
Tradução metodológica não é descoberta
Esse ponto merece atenção. Os agentes entendem o problema — as falhas raramente decorrem de incompreensão do enunciado. O que falta é a capacidade de inventar uma abordagem nova quando as abordagens conhecidas não são suficientes.
Tradução metodológica é valiosa. Um agente que automaticamente reformula um problema científico como classificação supervisionada e aplica o estimador certo economiza semanas de trabalho de um pesquisador. Mas isso é automação de engenharia, não descoberta científica — e a diferença importa quando a alegação é que a IA vai acelerar a ciência fundamental.
O NatureBench deixa claro que os agentes atuais estão muito mais próximos do primeiro cenário do que do segundo. Eles são bons implementadores de métodos existentes. Quando o problema exige um método que ainda não existe na literatura de treinamento, eles erram — e erram na escolha da abordagem, não na execução.
O que isso significa para a "IA-cientista"
A narrativa de que modelos de linguagem logo vão substituir pesquisadores científicos ganha força toda vez que um agente fecha um gap de benchmark ou gera um paper aparentemente plausível. O NatureBench serve de contraponto empírico: quando você mede contra resultados verificados em problemas reais, a distância ainda é enorme.
Isso não invalida a utilidade dos agentes em pesquisa — automatizar pipelines de análise, sugerir implementações alternativas e depurar código experimental são contribuições reais. Mas contribuição real não é o mesmo que descoberta autônoma.
A distinção é importante para quem financia ciência, para quem contrata pesquisadores e para quem avalia declarações de laboratórios de IA sobre o papel dessas ferramentas no avanço do conhecimento.
Limites do benchmark e o que vem a seguir
O NatureBench tem restrições próprias. Noventa tarefas cobrem uma fração do universo científico; a distribuição por área não reflete necessariamente onde os agentes teriam mais ou menos vantagem. O protocolo sem busca na web é conservador — na prática, pesquisadores usam agentes com acesso a literaturas inteiras.
Os autores planejam expandir o benchmark e manter o leaderboard com reprodução verificada. O código do NatureGym está disponível no GitHub para que outros grupos construam tarefas adicionais. É a infraestrutura que faltava para medir, de forma séria, o quanto a IA realmente contribui para a ciência — em vez de apenas afirmar que contribui.
Perguntas Frequentes
O que significa "superar o SOTA publicado"?
SOTA — state of the art — é o melhor resultado conhecido publicado para uma tarefa específica. O NatureBench exige que o agente melhore esse resultado com uma margem g > 0,1, descartando diferenças estatisticamente insignificantes.
Por que o protocolo proíbe busca na web?
Para medir a capacidade intrínseca do modelo, sem permitir que ele simplesmente localize e copie soluções existentes. É uma condição mais exigente — e mais reveladora — do que testes que permitem recuperação de informação externa.
Os agentes que foram testados são os mais avançados disponíveis?
O paper descreve "dez configurações de agentes frontais", o que indica modelos de ponta, mas a versão preprint não detalha publicamente quais são. Os resultados do leaderboard devem trazer mais granularidade à medida que outros grupos submetem.
Isso quer dizer que a IA não serve para pesquisa científica?
Não. Significa que a narrativa de "IA descobrindo ciência autonomamente" está bem à frente da realidade demonstrável. Para automação de análises, implementação de pipelines e síntese de literatura, os agentes já trazem ganho real. A descoberta genuína ainda exige humanos.