Além da Previsão do Próximo Token: Uma Prova de Conceito de RLVR para Agentes de Uso de Ferramentas em Fluxos de Trabalho da Atlassian
arXiv:2607.01465v1 Tipo de Anúncio: novo Resumo: Grandes modelos de linguagem são treinados para prever o próximo token, e não para atuar dentro de uma API específica. Em fluxos de trabalho de SaaS empresarial de nicho -- onde o sucesso significa acionar o endpoint certo com os argumentos aninhados certos na ordem certa -- essa incompatibilidade de objetivo se manifesta como falhas silenciosas: campos obrigatórios descartados, ferramentas alucinadas ou paradas precoces após uma única leitura. Nós perguntamos se o Aprendizado por Reforço com Recompensas Verificáveis (RLVR), aplicado direto...
arXiv cs.AI
·Karthikeya Aditya Vissa, Sankalp Mane, Ananya Mantravadi, Harshit Rajgarhia, Abhishek Mukherji
·
// relacionados
Leia também
Blog
O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico
Blog
AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer
Dataset
ByteDance-Seed/EdgeBench
Blog