Benchmark de Compreensão de Documentos de Escritório
arXiv:2607.01245v1 Tipo de anúncio: novo Resumo: Apresentamos o Office Comprehension Bench (OCB), o primeiro benchmark público a avaliar conjuntamente sistemas de LLM na compreensão de Word, Excel e PowerPoint sobre formatos de arquivo nativos (.docx, .xlsx, .pptx) e suas variantes. O OCB é composto por duas trilhas. A trilha de Perguntas e Respostas de Fidelidade de Arquivo testa a percepção estrutural e visual de artefatos de escritório — tabelas, gráficos, imagens incorporadas, fórmulas e elementos específicos de cada aplicativo, como cabeçalhos, notas do apresentador e intervalos nomeados. Q de Domínio...
arXiv cs.CL
·Firoz Shaik, Mateus Pican\c{c}o Lima Gomes, Tanvir Aumi, Jingci Wang, Milos Milunovic, Filip Basara, Ivana Jovanovic, Vishwas Suryanarayanan, Neha Nandan Kenkare, Weiyao Xie, Zhipeng Han, Zheng Zhang, Waleed Shahid, Jay Rathi, Russell Scherer, Thong Q. Nguyen, Michael Bentley, Tamara Stankovic, Rasika Chakravarthy, Vishal Chowdhary
·
// relacionados
Leia também
Blog
O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico
Blog
AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer
Dataset
ByteDance-Seed/EdgeBench
Blog