Destilação de Memória Procedimental: Reflexão Online para Modelos de Linguagem que se Aprimoram Sozinhos

arXiv:2607.01480v1 Tipo de anúncio: novo Resumo: O aprendizado por reforço com recompensas verificáveis (RLVR), juntamente com variantes recentes de auto-destilação como o SDPO, avalia cada rollout em relação a um verificador e atualiza a política a partir desse sinal em nível de episódio. No entanto, a informação procedimental mais rica contida no rollout raramente é retida ou reutilizada. Ao longo de episódios e épocas, o modelo encontra repetidamente problemas relacionados sob uma política em constante mudança, produzindo sinais entre episódios que os u...

arXiv cs.AI ·Ye Liu, Srijan Bansal, Bo Pang, Yang Li, Zeyu Leo Liu, Yifei Ming, Zixuan Ke, Shafiq Joty, Semih Yavuz ·
compartilhar: