CoRe: Recompensas Combinadas com Feedback de Modelo de Visão-Linguagem para Aprendizado por Reforço Alinhado a Preferências

arXiv:2607.01721v1 Tipo de anúncio: novo Resumo: O design de recompensas continua sendo um desafio central no aprendizado por reforço (RL). Recompensas feitas manualmente costumam ser difíceis de especificar e podem levar a políticas subótimas, enquanto recompensas aprendidas a partir de preferências podem sofrer com ineficiência e treinamento instável. Inspirados pela natureza dual do aprendizado humano explorada na ciência cognitiva, nós decompomos as recompensas em dois componentes complementares: Recompensas Formais (FR), projetadas explicitamente com base no conhecimento da tarefa,...

arXiv cs.RO ·Hexian Ni, Tao Lu, Yinghao Cai ·
compartilhar: