Destilação de Memória Procedimental: Reflexão Online para Modelos de Linguagem que se Aprimoram Sozinhos
arXiv:2607.01480v1 Tipo de anúncio: novo Resumo: O aprendizado por reforço com recompensas verificáveis (RLVR), juntamente com variantes recentes de auto-destilação como o SDPO, avalia cada rollout em relação a um verificador e atualiza a política a partir desse sinal em nível de episódio. No entanto, a informação procedimental mais rica contida no rollout raramente é retida ou reutilizada. Ao longo de episódios e épocas, o modelo encontra repetidamente problemas relacionados sob uma política em constante mudança, produzindo sinais entre episódios que os u...
arXiv cs.AI
·Ye Liu, Srijan Bansal, Bo Pang, Yang Li, Zeyu Leo Liu, Yifei Ming, Zixuan Ke, Shafiq Joty, Semih Yavuz
·
// relacionados
Leia também
Editorial
UWORLD U1: a UBTECH lança o primeiro humanoide "ultra-biônico" em série — e a dança que expôs os limites
Blog
Takeda fecha acordo de US$ 600 milhões com a Insilico para descoberta de medicamentos com IA
Blog
Conheça o WebBrain: um agente de navegador com IA de código aberto e local-first que lê páginas e automatiza tarefas no Chrome e no Firefox
Blog