Blog Robótica & RL LLMs & Texto

CoRe: Recompensas Combinadas com Feedback de Modelo de Visão-Linguagem para Aprendizado por Reforço Alinhado a Preferências

arXiv:2607.01721v1 Tipo de anúncio: novo Resumo: O design de recompensas continua sendo um desafio central no aprendizado por reforço (RL). Recompensas feitas manualmente costumam ser difíceis de especificar e podem levar a políticas subótimas, enquanto recompensas aprendidas a partir de preferências podem sofrer com ineficiência e treinamento instável. Inspirados pela natureza dual do aprendizado humano explorada na ciência cognitiva, nós decompomos as recompensas em dois componentes complementares: Recompensas Formais (FR), projetadas explicitamente com base no conhecimento da tarefa,...

arXiv cs.RO ·Hexian Ni, Tao Lu, Yinghao Cai · 03 de janeiro de 2026

Ver no Hugging Face

// relacionados

CoRe: Recompensas Combinadas com Feedback de Modelo de Visão-Linguagem para Aprendizado por Reforço Alinhado a Preferências

Leia também

UWORLD U1: a UBTECH lança o primeiro humanoide "ultra-biônico" em série — e a dança que expôs os limites

Takeda fecha acordo de US$ 600 milhões com a Insilico para descoberta de medicamentos com IA

Conheça o WebBrain: um agente de navegador com IA de código aberto e local-first que lê páginas e automatiza tarefas no Chrome e no Firefox

Um robô rocker-bogie reconfigurável para escalar degraus altos e realizar curvas