A Geometria dos Tokens
arXiv:2607.01455v1 Tipo de anúncio: novo Resumo: Os modelos de linguagem aprendem programas contínuos sobre símbolos discretos, com a tabela de embeddings e a LM-head atuando como a interface de leitura/escrita entre eles. Mostramos que essa interface possui uma geometria de gradientes distinta da dos pesos ocultos densos, que pode ser explorada para melhorar a fronteira de Pareto ao longo do fine-tuning supervisionado, do RL e do pré-treinamento, utilizando apenas kilobytes de estado do otimizador. Apresentamos o Ember, um otimizador leve para embeddin...
arXiv cs.LG
·Kathan Shah
·
// relacionados
Leia também
Blog
O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico
Blog
AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer
Dataset
ByteDance-Seed/EdgeBench
Blog