Paper
Robótica & RL
Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training
On-policy self-distillation in continual post-training accelerates in-domain specialization but fails to prevent forgetting and can collapse in out-of-distribution scenarios, indic…
Hugging Face · Daily Papers
·Meng Wang, Haohan Zhao
·
·▲ 4 upvotes
Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.
Autores: Meng Wang, Haohan Zhao, Wenzhuo Liu, Lu Yang, Geng Liu, Haiyang Guo
- 4 upvotes da comunidade
- Temas: continual post-training, on-policy learning, self-distillation, on-policy self-distillation, policy optimization, continual learning
Resumo
Resumo original (em inglês), extraído do paper:
On-policy self-distillation in continual post-training accelerates in-domain specialization but fails to prevent forgetting and can collapse in out-of-distribution scenarios, indicating that on-policy data alone is insufficient for continual learning.Onde ler
// relacionados
Leia também
Editorial
UWORLD U1: a UBTECH lança o primeiro humanoide "ultra-biônico" em série — e a dança que expôs os limites
Blog
Takeda fecha acordo de US$ 600 milhões com a Insilico para descoberta de medicamentos com IA
Blog
Conheça o WebBrain: um agente de navegador com IA de código aberto e local-first que lê páginas e automatiza tarefas no Chrome e no Firefox
Blog