Blog LLMs & Texto Dados & Embeddings

AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

Em um estudo que abrangeu sete benchmarks, o AI Security Institute do Reino Unido mostra que as avaliações padrão de IA subestimam sistematicamente as capacidades dos agentes ao limitar o orçamento de computação. Em tarefas de engenharia de software, as taxas de sucesso saltaram cerca de 25 por cento quando o orçamento de tokens foi aumentado dez vezes. Os modelos mais novos são os que mais se beneficiam. Dependendo do orçamento de tokens, o progresso real na fronteira é cerca de 60 por cento mais acentuado do que as medições anteriores sugeriam, segundo o AISI. O artigo UK's AI Secu...

The Decoder ·Matthias Bastian · 03 de janeiro de 2026

Ver no Hugging Face

// relacionados

AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

Leia também

O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico

ByteDance-Seed/EdgeBench

Google DeepMind e A24 anunciam parceria de pesquisa inédita

Ornith-1.0: o modelo aberto que aprende a escrever seu próprio treino