O risco da compressão de cache KV

arXiv:2607.01520v1 Tipo de anúncio: novo Resumo: A inferência de Transformers em sequências longas é cara porque a atenção softmax lê repetidamente de um grande cache KV. A abordagem predominante para esse gargalo é a compressão do cache KV, que substitui o cache completo por um resumo compacto. Apesar de sua importância prática, o projeto desses resumos é em grande parte guiado por experimentação empírica. No lado teórico, resultados existentes mostram que a compressão do cache KV pode ser impossível no pior...

arXiv cs.LG ·Lukas Haverbeck, Carmen Amo Alonso, Andres Felipe Posada-Moreno, Sebastian Trimpe, Marco Pavone ·
compartilhar: