Paper LLMs & Texto Geração de Imagem

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

PerceptionDLM enables efficient parallel region perception in multimodal diffusion language models through structured attention masking and efficient prompting, achieving faster in…

Hugging Face · Daily Papers ·Yueyi Sun, Yuhao Wang · 17 de janeiro de 2026 ·▲ 50 upvotes

Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.

Autores: Yueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang, Jacky Mai

50 upvotes da comunidade
Temas: multimodal large language models, diffusion language models, parallel decoding, structured attention masking, region captioning, visual perception

Resumo

Resumo original (em inglês), extraído do paper:

PerceptionDLM enables efficient parallel region perception in multimodal diffusion language models through structured attention masking and efficient prompting, achieving faster inference without sacrificing caption quality.

Ler o paper completo no Hugging Face →

Ver no Hugging Face

// relacionados

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Resumo

Leia também

How Businesses Are Building Specialized AI They Can Trust

Fika Jobs raises $4M to build a video-first hiring platform where AI agents interview candidates

Build real agentic apps using CUGA: two dozen working examples on a lightweight harness

Cursor announces its own AI model, a new Git platform, and a mobile app