Paper LLMs & Texto Multimodal

ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

ViQ presents a visual quantization framework that balances semantic richness and detail preservation in discrete representations, enabling efficient multimodal training with native…

Hugging Face · Daily Papers ·Xumin Yu, Zuyan Liu · 25 de janeiro de 2026 ·▲ 37 upvotes

Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.

Autores: Xumin Yu, Zuyan Liu, Zhenyu Yang, Yuhao Dong, Shengsheng Qian, Jiwen Lu

37 upvotes da comunidade
Temas: visual quantized representations, text-aligned pre-training, feature discretization, proximal representation learning, position-aware head-wise quantization, multimodal modeling

Resumo

Resumo original (em inglês), extraído do paper:

ViQ presents a visual quantization framework that balances semantic richness and detail preservation in discrete representations, enabling efficient multimodal training with native-resolution inputs.

Onde ler

Ver no Hugging Face

// relacionados

ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

Resumo

Onde ler

Leia também

Meddies/meddies-persona-vie

SoftBank’s CEO isn’t the only one with questions about Elon Musk’s orbital data center hype

Anthropic's Fable 5 could return within days as Trump administration prepares to lift restrictions

Apple Vision Pro exec is reportedly leaving for OpenAI