artigo · Multimodal

VLMs: Modelos de Visão e Linguagem

Mostrar uma foto a um modelo e perguntar sobre ela em português soa trivial hoje. Por trás dessa naturalidade está uma costura engenhosa entre dois mundos que não se falavam: o da visão e o da linguagem.

Um VLM — sigla de vision-language model, ou modelo de visão e linguagem — é um sistema que recebe imagens e texto juntos e responde em texto. Ele não só reconhece o que há numa foto: descreve, responde perguntas, lê documentos e raciocina sobre o que vê. É o tipo de modelo por trás dos assistentes que "enxergam" o que você envia.

O que é, na essência

Um VLM combina duas peças que historicamente eram separadas. De um lado, um codificador de imagem (image encoder), que transforma os pixels numa representação numérica — vetores que resumem o conteúdo visual. De outro, um LLM, o modelo de linguagem que já sabe conversar em texto. O VLM ensina os dois a trabalharem juntos.

Como ele combina visão e linguagem

A imagem passa pelo codificador e vira um conjunto de vetores. Esses vetores são então traduzidos para o formato que o LLM entende — como se a imagem virasse uma sequência de "palavras" visuais que o modelo de linguagem pode ler ao lado do texto da sua pergunta. Essa ponte costuma ser uma pequena camada treinada justamente para alinhar os dois espaços.

O resultado: o LLM passa a processar imagem e texto na mesma sequência. Para ele, ver uma foto e ler uma frase tornam-se a mesma operação — prever a próxima palavra, agora com o conteúdo visual à disposição. Muitos VLMs usam um codificador herdado do CLIP, que já nasce alinhado à linguagem.

Codificador de imagem: transforma pixels em vetores que resumem o conteúdo.
Projetor: a camada que traduz vetores de imagem para o "vocabulário" do LLM.
LLM: o modelo de linguagem que raciocina sobre texto e imagem juntos.
VQA: visual question answering — responder perguntas sobre uma imagem.

O que um VLM consegue fazer

VQA (visual question answering): responder perguntas abertas sobre uma imagem — "quantas pessoas há na foto?", "que marca é essa?".
Descrição (captioning): gerar uma legenda que resume a cena, base para acessibilidade e indexação.
Leitura de documentos: interpretar PDFs, recibos, formulários e tabelas em imagem, extraindo e organizando a informação.
Raciocínio visual: ler um gráfico e tirar conclusões, comparar dois itens, seguir um diagrama.
Agentes de tela: "olhar" uma interface e descrever ou operar elementos a partir do que veem.

Exemplos de capacidade

Na prática, um bom VLM hoje extrai os itens e valores de uma nota fiscal fotografada, explica um meme, transcreve uma lousa, descreve uma planta baixa ou resume um infográfico denso. Tarefas que antes exigiam um pipeline com OCR, detector de objetos e regras feitas à mão hoje cabem numa única pergunta em linguagem natural — e isso é o que torna a tecnologia tão sedutora.

Os limites: a alucinação visual

O ponto fraco mais característico dos VLMs é a alucinação visual: descrever algo que não está na imagem. O modelo pode "ver" um relógio numa parede vazia porque salas costumam ter relógios, ou ler um número plausível num gráfico borrado. Como ele gera a continuação mais provável, o palpite coerente frequentemente vence a observação fiel.

Há limitações adicionais: texto muito pequeno, detalhes finos, contagem precisa e relações espaciais ("à esquerda de", "atrás de") ainda escapam. Para decisões críticas, a saída de um VLM merece verificação — ele é um excelente leitor de primeira passada, não um perito infalível.

Perguntas Frequentes

VLM e LLM são a mesma coisa?

Não. O LLM processa só texto; o VLM acopla a ele um codificador de imagem para também enxergar. Pode-se pensar no VLM como um LLM que ganhou um sentido a mais — mas o motor de raciocínio continua sendo o modelo de linguagem.

Um VLM substitui o OCR tradicional?

Para muitos casos do dia a dia, sim, e com a vantagem de já entender o contexto. Mas em documentos de altíssima precisão ou volume industrial, ferramentas de OCR dedicadas ainda podem ser mais confiáveis e baratas.

Posso rodar um VLM no meu computador?

Sim. Existem VLMs compactos e quantizados que rodam em hardware modesto e dão conta de descrição e leitura de documentos. A qualidade em raciocínio visual difícil cresce com o tamanho do modelo, como costuma acontecer.

Por que o modelo inventa coisas na imagem?

Porque otimiza por plausibilidade, não por fidelidade. Quando o sinal visual é fraco ou ambíguo, ele completa a lacuna com o que é estatisticamente provável — e o resultado pode ser uma descrição convincente, porém falsa.

← voltar para o guia completo

Acompanhe Multimodal no radar

Veja os papers, modelos e datasets de Multimodal em alta agora no Hugging Face.

Abrir radar de Multimodal