Blog LLMs & Texto

O risco da compressão de cache KV

arXiv:2607.01520v1 Tipo de anúncio: novo Resumo: A inferência de Transformers em sequências longas é cara porque a atenção softmax lê repetidamente de um grande cache KV. A abordagem predominante para esse gargalo é a compressão do cache KV, que substitui o cache completo por um resumo compacto. Apesar de sua importância prática, o projeto desses resumos é em grande parte guiado por experimentação empírica. No lado teórico, resultados existentes mostram que a compressão do cache KV pode ser impossível no pior...

arXiv cs.LG ·Lukas Haverbeck, Carmen Amo Alonso, Andres Felipe Posada-Moreno, Sebastian Trimpe, Marco Pavone · 03 de janeiro de 2026

Ver no Hugging Face

// relacionados

O risco da compressão de cache KV

Leia também

O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico

AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

ByteDance-Seed/EdgeBench

Google DeepMind e A24 anunciam parceria de pesquisa inédita