artigo · Multimodal

Tokens Visuais: Como um Modelo 'Lê' uma Imagem

Um modelo de linguagem só sabe manipular tokens. Então como ele "vê" uma foto? A resposta — transformar a imagem em algo que se pareça com palavras — é uma das ideias mais elegantes da IA multimodal.

Um LLM processa tokens: pedaços de texto convertidos em números. Quando você manda uma imagem a um modelo multimodal e ele a descreve, há um truque no meio do caminho — a imagem precisa virar algo que o LLM saiba ler. Esse algo são os tokens visuais. Entender como eles se formam desmistifica boa parte da IA que "enxerga".

Picar a imagem em pedaços

O primeiro passo é cortar a imagem numa grade de quadradinhos — os patches. Uma foto vira, por exemplo, uma malha de 16×16 pedaços. Cada patch é um retalho da imagem, e a sequência de patches é tratada de forma análoga a uma sequência de palavras num texto.

É a ideia por trás do Vision Transformer: aplicar a um mosaico de patches o mesmo mecanismo de atenção que revolucionou o texto. Em vez de ler palavra a palavra, o modelo "lê" patch a patch, ponderando quais regiões da imagem importam para cada outra.

Do patch ao token que o LLM entende

Cada patch passa por um codificador visual que o transforma num vetor — uma lista de números que resume seu conteúdo. Mas esse vetor vive num "idioma" diferente do texto. Entra então uma peça pequena e decisiva: o projetor (às vezes um simples MLP), que traduz os vetores da imagem para o mesmo espaço dos tokens de texto.

Depois dessa tradução, o LLM não distingue mais o que veio de pixel e o que veio de palavra: tudo é uma sequência de tokens no mesmo espaço. É por isso que ele consegue responder a uma pergunta de texto sobre uma imagem — para ele, ambas são a mesma matéria.

Patch: um quadradinho da imagem; o equivalente visual de um pedaço de palavra.
Codificador visual: transforma cada patch num vetor de significado.
Projetor: traduz esses vetores para o espaço de tokens do LLM.
Custo: uma imagem pode valer centenas ou milhares de tokens — e pesar na conta.

Por que imagens "custam" tanto

Aqui está uma consequência prática que pega muita gente de surpresa. Uma única imagem em alta resolução pode se desdobrar em centenas ou milhares de tokens — muito mais que uma frase. Como o custo e a velocidade dos modelos dependem do número de tokens, processar imagens é caro, e janelas de contexto se enchem rápido quando há fotos no meio.

É por isso que tanta pesquisa recente busca comprimir tokens visuais: representar a mesma imagem com menos tokens, sem perder o que importa. Menos tokens por imagem significam respostas mais rápidas e baratas — um gargalo concreto da IA multimodal.

A mesma receita serve para vídeo e áudio

O padrão "picar em pedaços, codificar, projetar para o espaço do texto" não é exclusivo da imagem. Vídeo é tratado como uma sequência de quadros (mais tokens ainda); áudio é cortado em fatias de som e codificado do mesmo jeito. É essa receita repetível que permite a um único modelo unir visão, leitura e escuta — o coração da multimodalidade.

Perguntas Frequentes

O modelo vê a imagem como nós?

Não. Ele a converte numa sequência de vetores numéricos e a processa como processa texto. Não há percepção visual no sentido humano — há manipulação estatística de representações que capturam o conteúdo da imagem.

Por que mandar imagens grandes deixa o modelo lento?

Porque mais resolução vira mais patches, e mais patches viram mais tokens. Como o custo cresce com o número de tokens, imagens grandes consomem mais tempo, memória e, em APIs pagas, dinheiro.

Qual a diferença entre o codificador visual e o projetor?

O codificador transforma cada patch num vetor que resume seu conteúdo visual. O projetor traduz esses vetores para o mesmo espaço dos tokens de texto, para que o LLM consiga combiná-los com palavras.

← voltar para o guia completo

Acompanhe Multimodal no radar

Veja os papers, modelos e datasets de Multimodal em alta agora no Hugging Face.

Abrir radar de Multimodal