Além da Previsão do Próximo Token: Uma Prova de Conceito de RLVR para Agentes de Uso de Ferramentas em Fluxos de Trabalho da Atlassian

arXiv:2607.01465v1 Tipo de Anúncio: novo Resumo: Grandes modelos de linguagem são treinados para prever o próximo token, e não para atuar dentro de uma API específica. Em fluxos de trabalho de SaaS empresarial de nicho -- onde o sucesso significa acionar o endpoint certo com os argumentos aninhados certos na ordem certa -- essa incompatibilidade de objetivo se manifesta como falhas silenciosas: campos obrigatórios descartados, ferramentas alucinadas ou paradas precoces após uma única leitura. Nós perguntamos se o Aprendizado por Reforço com Recompensas Verificáveis (RLVR), aplicado direto...

arXiv cs.AI ·Karthikeya Aditya Vissa, Sankalp Mane, Ananya Mantravadi, Harshit Rajgarhia, Abhishek Mukherji ·
compartilhar: