CoRe: Recompensas Combinadas com Feedback de Modelo de Visão-Linguagem para Aprendizado por Reforço Alinhado a Preferências
arXiv:2607.01721v1 Tipo de anúncio: novo Resumo: O design de recompensas continua sendo um desafio central no aprendizado por reforço (RL). Recompensas feitas manualmente costumam ser difíceis de especificar e podem levar a políticas subótimas, enquanto recompensas aprendidas a partir de preferências podem sofrer com ineficiência e treinamento instável. Inspirados pela natureza dual do aprendizado humano explorada na ciência cognitiva, nós decompomos as recompensas em dois componentes complementares: Recompensas Formais (FR), projetadas explicitamente com base no conhecimento da tarefa,...
arXiv cs.RO
·Hexian Ni, Tao Lu, Yinghao Cai
·
// relacionados
Leia também
Editorial
UWORLD U1: a UBTECH lança o primeiro humanoide "ultra-biônico" em série — e a dança que expôs os limites
Blog
Takeda fecha acordo de US$ 600 milhões com a Insilico para descoberta de medicamentos com IA
Blog
Conheça o WebBrain: um agente de navegador com IA de código aberto e local-first que lê páginas e automatiza tarefas no Chrome e no Firefox
Blog