A Geometria dos Tokens

arXiv:2607.01455v1 Tipo de anúncio: novo Resumo: Os modelos de linguagem aprendem programas contínuos sobre símbolos discretos, com a tabela de embeddings e a LM-head atuando como a interface de leitura/escrita entre eles. Mostramos que essa interface possui uma geometria de gradientes distinta da dos pesos ocultos densos, que pode ser explorada para melhorar a fronteira de Pareto ao longo do fine-tuning supervisionado, do RL e do pré-treinamento, utilizando apenas kilobytes de estado do otimizador. Apresentamos o Ember, um otimizador leve para embeddin...

arXiv cs.LG ·Kathan Shah ·
compartilhar: