Blog
LLMs & Texto
O risco da compressão de cache KV
arXiv:2607.01520v1 Tipo de anúncio: novo Resumo: A inferência de Transformers em sequências longas é cara porque a atenção softmax lê repetidamente de um grande cache KV. A abordagem predominante para esse gargalo é a compressão do cache KV, que substitui o cache completo por um resumo compacto. Apesar de sua importância prática, o projeto desses resumos é em grande parte guiado por experimentação empírica. No lado teórico, resultados existentes mostram que a compressão do cache KV pode ser impossível no pior...
arXiv cs.LG
·Lukas Haverbeck, Carmen Amo Alonso, Andres Felipe Posada-Moreno, Sebastian Trimpe, Marco Pavone
·
// relacionados
Leia também
Blog
O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico
Blog
AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer
Dataset
ByteDance-Seed/EdgeBench
Blog