Blog Robótica & RL LLMs & Texto

Destilação de Memória Procedimental: Reflexão Online para Modelos de Linguagem que se Aprimoram Sozinhos

arXiv:2607.01480v1 Tipo de anúncio: novo Resumo: O aprendizado por reforço com recompensas verificáveis (RLVR), juntamente com variantes recentes de auto-destilação como o SDPO, avalia cada rollout em relação a um verificador e atualiza a política a partir desse sinal em nível de episódio. No entanto, a informação procedimental mais rica contida no rollout raramente é retida ou reutilizada. Ao longo de episódios e épocas, o modelo encontra repetidamente problemas relacionados sob uma política em constante mudança, produzindo sinais entre episódios que os u...

arXiv cs.AI ·Ye Liu, Srijan Bansal, Bo Pang, Yang Li, Zeyu Leo Liu, Yifei Ming, Zixuan Ke, Shafiq Joty, Semih Yavuz · 03 de janeiro de 2026

Ver no Hugging Face

// relacionados

Destilação de Memória Procedimental: Reflexão Online para Modelos de Linguagem que se Aprimoram Sozinhos

Leia também

UWORLD U1: a UBTECH lança o primeiro humanoide "ultra-biônico" em série — e a dança que expôs os limites

Takeda fecha acordo de US$ 600 milhões com a Insilico para descoberta de medicamentos com IA

Conheça o WebBrain: um agente de navegador com IA de código aberto e local-first que lê páginas e automatiza tarefas no Chrome e no Firefox

CoRe: Recompensas Combinadas com Feedback de Modelo de Visão-Linguagem para Aprendizado por Reforço Alinhado a Preferências