PerceptionDLM: modelos de difusão aprendem a descrever várias regiões de uma imagem ao mesmo tempo
Pesquisadores da Universidade de Pequim combinam um modelo de difusão de linguagem com um encoder de visão para gerar descrições de múltiplas regiões de uma imagem em paralelo — 3,4 vezes mais rápido que os métodos sequenciais.
Quando um sistema de visão computacional precisa descrever várias partes de uma imagem — um scanner de documentos que extrai texto de dez campos diferentes, um sistema de inspeção industrial que verifica doze componentes numa peça —, o processo habitual é sequencial: região 1, depois região 2, depois região 3. Cada descrição é gerada em separado, o que multiplica o tempo de inferência pelo número de regiões.
O PerceptionDLM, publicado em 17 de junho de 2026 por pesquisadores do MSALab da Universidade de Pequim em colaboração com ByteDance, WHU, CASIA e NUS, aborda esse problema de um ângulo diferente. Aproveitando uma propriedade dos modelos de difusão de linguagem que os transformers autorregressivos não têm — a capacidade de gerar múltiplos tokens simultaneamente, não um a um —, o PerceptionDLM produz descrições de N regiões em uma única passagem de denoising, não em N passagens separadas.
O que são modelos de difusão de linguagem
A maioria dos modelos de linguagem que conhecemos é autorregressiva: gera uma palavra de cada vez, condicionando cada nova saída no que já foi gerado. O processo é inerentemente sequencial — token 1, token 2, token 3 — o que limita o paralelismo durante a inferência.
Modelos de difusão de linguagem funcionam de outra forma. Inspirados nos modelos de geração de imagem por difusão (como o Stable Diffusion), eles começam com uma sequência de tokens mascarados — posições "em branco" — e iterativamente preenchem essas posições durante um processo de denoising. Em cada passo, múltiplos tokens podem ser revelados simultaneamente. Isso é o que o PerceptionDLM explora: as N descrições de N regiões ocupam posições mascaradas em paralelo, e o processo de denoising as preenche todas ao mesmo tempo.
O backbone usado é o LLaDA-8B — um modelo de difusão de linguagem de 8 bilhões de parâmetros — combinado com o SigLIP-2 como encoder de visão e uma MLP de duas camadas como conector entre os dois.
Parallel region caption: o mecanismo em detalhe
Para que o modelo entenda que está descrevendo regiões específicas da imagem, o PerceptionDLM usa três técnicas em conjunto. A primeira é region prompting: cada região da imagem recebe um embedding aprendível que codifica sua posição e limites espaciais. A segunda é RoI-aligned feature replay: o encoder de visão extrai features localizadas especificamente para cada região de interesse (RoI), não apenas uma representação global da imagem. A terceira é structured attention masking: garante que as descrições de diferentes regiões não "contaminam" umas às outras durante o denoising, preservando a independência semântica enquanto compartilham o contexto visual global.
O resultado quantitativo é expressivo. Nos experimentos com o benchmark ParaDLC-Bench — criado pelos próprios autores para avaliar percepção densa multiregião —, o PerceptionDLM processa em média 2,9 tokens por forward pass, contra 1,0 dos métodos autorregressivos sequenciais. O tempo total de inferência cai de 479 segundos para 276 segundos em tarefas de percepção densa, um speedup de 3,44 vezes.
- Backbone: LLaDA-8B (difusão de linguagem) + SigLIP-2 (visão) + MLP conector
- Speedup em percepção densa: 3,44× (276s vs. 479s sequencial)
- Tokens por forward pass: 2,9 (vs. 1,0 autorregressivo sequencial)
- ParaDLC-Bench: 62,4% (PerceptionDLM) vs. 35,2% (LLaDA-V) vs. 31,3% (SDAR-VL)
- MMBench: 85,0% | ChartQA: 91,6% | DocVQA: 89,9%
- Benchmarks gerais: supera LLaDA-V em 15 de 16 benchmarks multimodais
- Licença: Apache 2.0 — código, pesos, dados e benchmark abertos
- Publicado: 17 de junho de 2026 (arxiv: 2606.19534)
Por que isso importa para visão computacional aplicada
A percepção densa multiregião é um gargalo real em sistemas de visão computacional industrial. Considere um sistema de inspeção de qualidade que analisa um circuito impresso e precisa classificar individualmente vinte componentes por imagem. Com um modelo sequencial, o tempo de inferência é proporcional ao número de componentes. Com o PerceptionDLM, o tempo de inferência é quase constante — o modelo processa todas as regiões juntas.
O mesmo vale para sistemas de análise de documentos: formulários, tabelas, laudos médicos com múltiplos campos rotulados. O OCR por campo sequencial é lento; a capacidade de descrever todos os campos em paralelo abre espaço para latências de inferência viáveis em tempo real.
O PerceptionDLM não é o primeiro trabalho a explorar percepção densa com VLMs, mas é um dos primeiros a fazê-lo usando a decodificação paralela de difusão como mecanismo central. Até então, os modelos de difusão de linguagem eram vistos principalmente como alternativas aos autorregressivos em geração de texto — não como plataforma para percepção visual especializada.
Resultados gerais: o modelo base também impressiona
Além do PerceptionDLM especializado em percepção multiregião, os autores publicaram o PerceptionDLM-Base — uma versão treinada para compreensão multimodal geral, sem o módulo de percepção densa. O PerceptionDLM-Base supera o LLaDA-V (o baseline de difusão de linguagem multimodal anterior) em 15 de 16 benchmarks, incluindo MMBench (85,0%), ChartQA (91,6%) e DocVQA (89,9%).
Esses números posicionam o modelo como uma das implementações mais capazes de difusão de linguagem multimodal disponíveis publicamente. O destaque no DocVQA (89,9%) é especialmente relevante: Document Visual Question Answering exige compreensão de layout, texto e estrutura visual simultaneamente — um caso de uso com aplicação direta em sistemas de extração de informação de documentos.
Abertura total: código, pesos, dados e benchmark
O PerceptionDLM foi lançado com Apache 2.0 para tudo: código de treinamento e inferência, pesos do modelo, dados de treinamento e o benchmark ParaDLC-Bench. Essa abertura completa é incomum em trabalhos que combinam múltiplos componentes de visão e linguagem — frequentemente os dados de treinamento ficam fora da licença aberta.
A publicação do ParaDLC-Bench como benchmark aberto é um contribuição independente: a área de percepção densa multiregião carecia de uma avaliação padronizada que medisse tanto qualidade semântica quanto eficiência de inferência simultaneamente. O benchmark preencheu essa lacuna e permite que trabalhos futuros se comparem diretamente.
Perguntas Frequentes
Qual a diferença entre difusão de linguagem e difusão de imagem?
Modelos de difusão de imagem (como o Stable Diffusion) geram pixels — partem de ruído visual e iterativamente revelam a imagem. Modelos de difusão de linguagem (como o LLaDA) fazem o mesmo com tokens de texto: partem de uma sequência mascarada e iterativamente revelam as palavras. A chave é que, em ambos os casos, múltiplas posições podem ser atualizadas em paralelo a cada passo de denoising — diferente dos modelos autorregressivos que geram um token por vez.
O PerceptionDLM pode substituir sistemas de OCR tradicionais?
Para documentos estruturados com múltiplos campos, o PerceptionDLM oferece uma alternativa que combina extração e compreensão semântica num único modelo. Sistemas de OCR tradicionais são mais rápidos em baixa resolução e têm décadas de otimização, mas não produzem entendimento semântico — apenas texto. O PerceptionDLM produz descrições contextualizadas de cada região, o que é útil quando o conteúdo não é apenas texto bruto mas sim análise de campos de formulário, interpretação de gráficos ou classificação de componentes.
Por que usar LLaDA como backbone, e não um modelo autorregressivo?
A escolha é motivada pelo mecanismo de geração paralela. Um modelo autorregressivo geraria cada descrição de região em sequência — token a token, região a região. O LLaDA pode gerar múltiplos tokens em múltiplas regiões simultaneamente durante o denoising, o que é exatamente a propriedade explorada pelo PerceptionDLM. Usar um backbone autorregressivo eliminaria a vantagem central do método.
Qual o tamanho do modelo e o custo para rodar?
O backbone LLaDA-8B tem 8 bilhões de parâmetros. Somando o SigLIP-2 e o conector MLP, o modelo total fica em torno de 9–10 bilhões de parâmetros — uma faixa que roda em uma GPU de 24GB (como uma RTX 4090 ou A10) em precisão FP16, ou em GPUs menores com quantização INT8/INT4.