AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

Em um estudo que abrangeu sete benchmarks, o AI Security Institute do Reino Unido mostra que as avaliações padrão de IA subestimam sistematicamente as capacidades dos agentes ao limitar o orçamento de computação. Em tarefas de engenharia de software, as taxas de sucesso saltaram cerca de 25 por cento quando o orçamento de tokens foi aumentado dez vezes. Os modelos mais novos são os que mais se beneficiam. Dependendo do orçamento de tokens, o progresso real na fronteira é cerca de 60 por cento mais acentuado do que as medições anteriores sugeriam, segundo o AISI. O artigo UK's AI Secu...

The Decoder ·Matthias Bastian ·
compartilhar: