PACE: A Proxy for Agentic Capability Evaluation
PACE is a framework that predicts expensive agentic LLM benchmark performance using a small subset of atomic evaluation instances, achieving high accuracy at a fraction of the cost…
Hugging Face · Daily Papers
·Yueqi Song, Lintang Sutawika
·
·▲ 5 upvotes
Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.
Autores: Yueqi Song, Lintang Sutawika, Jiarui Liu, Lindia Tjuatja, Jiayi Geng, Yunze Xiao
- 5 upvotes da comunidade
- Temas: LLM agents, SWE-Bench, GAIA, agentic benchmarks, non-agentic benchmarks, proxy benchmarks
Resumo
Resumo original (em inglês), extraído do paper:
PACE is a framework that predicts expensive agentic LLM benchmark performance using a small subset of atomic evaluation instances, achieving high accuracy at a fraction of the cost.Onde ler
// relacionados
Leia também
Blog
O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico
Blog
AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer
Dataset
ByteDance-Seed/EdgeBench
Blog