artigo · Visão Computacional

Segmentação de Imagem e o SAM

Uma caixa diz mais ou menos onde está o objeto. A segmentação recorta seu contorno exato, pixel a pixel — é o nível de detalhe que separa "há um tumor por aqui" de "o tumor é exatamente esta região".

A detecção de objetos responde "onde, mais ou menos", com uma caixa retangular. Mas uma caixa em torno de um cachorro inclui muito fundo que não é cachorro. A segmentação de imagem elimina essa imprecisão: ela atribui um rótulo a cada pixel, recortando o contorno preciso de cada elemento da cena.

Rótulo por pixel: a diferença para a detecção

A distinção é de granularidade. A detecção opera no nível do objeto e entrega um retângulo. A segmentação opera no nível do pixel e entrega uma máscara — uma silhueta que segue exatamente o formato do objeto, por mais irregular que seja.

Essa precisão importa quando a forma é o dado. Em medicina, calcular o volume de um tumor exige seu contorno, não uma caixa. Na edição de fotos, trocar o fundo exige saber onde a pessoa termina, fio de cabelo por fio de cabelo. Em carros autônomos, distinguir o asfalto da calçada é uma decisão pixel a pixel.

Três sabores de segmentação

Nem toda segmentação responde à mesma pergunta. Há três variantes principais:

Semântica: rotula cada pixel por categoria, sem distinguir indivíduos. Todos os pixels de pessoas viram "pessoa", numa mancha só — não importa se são três pessoas ou trinta.
De instância: separa indivíduos da mesma categoria. Aqui, cada pessoa recebe sua própria máscara distinta: "pessoa 1", "pessoa 2", "pessoa 3".
Panóptica: a fusão das duas. Rotula cada pixel da imagem inteira, distinguindo indivíduos onde isso faz sentido (pessoas, carros) e tratando o resto como regiões contínuas (céu, estrada, grama).

Máscara: a silhueta pixel a pixel que a segmentação produz.
Semântica: por categoria, sem separar indivíduos.
De instância: uma máscara por indivíduo da mesma classe.
Panóptica: cobre a imagem toda, juntando categorias e indivíduos.

O SAM e o que ele mudou

Por anos, cada tarefa de segmentação exigia um modelo treinado especificamente para suas categorias. Se o modelo conhecia "gato" e "carro", não sabia recortar uma "xícara" sem novo treino. Em 2023, o SAM (Segment Anything Model, "modelo para segmentar qualquer coisa") quebrou essa lógica.

O SAM é um modelo de propósito geral, treinado numa base com mais de um bilhão de máscaras. Sua proposta é segmentar qualquer objeto, mesmo de categorias que nunca viu rotuladas — o que se chama de capacidade zero-shot (sem exemplos prévios da tarefa específica). Ele aceita comandos simples: um clique sobre o objeto, uma caixa aproximada ou um ponto, e devolve a máscara correspondente.

O impacto foi prático e imediato. Tarefas que exigiam meses de anotação manual e um modelo dedicado passaram a ser resolvidas com um modelo pronto e alguns cliques. O SAM virou peça de infraestrutura: serve de base para ferramentas de edição, anotação de datasets e pipelines de visão que antes começavam do zero. Não é infalível — em objetos ambíguos, texturas finas ou bordas confusas, ainda erra —, mas mudou o ponto de partida do campo.

Onde se usa

A segmentação está em todo lugar em que a forma exata importa: imagem médica (delimitar órgãos, lesões, tumores), edição de fotos e vídeo (remoção de fundo, efeitos seletivos), sensoriamento remoto (mapear plantações, áreas urbanas, desmatamento por satélite), robótica (saber o contorno preciso do que se vai agarrar) e realidade aumentada (encaixar objetos virtuais na cena real).

Perguntas Frequentes

Qual a diferença entre detecção e segmentação?

A detecção localiza objetos com caixas retangulares; a segmentação recorta o contorno exato de cada objeto, rotulando pixel a pixel. A segmentação é mais detalhada e mais custosa de produzir.

Quando preciso de segmentação de instância em vez de semântica?

Quando importa distinguir indivíduos da mesma categoria. Para contar quantas pessoas há numa imagem ou rastrear cada uma separadamente, use segmentação de instância; se basta saber onde há "pessoas" em geral, a semântica resolve.

O SAM substitui modelos de segmentação especializados?

Nem sempre. Ele é excelente como ponto de partida geral e para tarefas interativas, mas em domínios muito específicos — certos exames médicos, por exemplo — modelos treinados sob medida ainda podem superá-lo em precisão.

O que significa segmentação "zero-shot"?

Significa segmentar objetos de categorias para as quais o modelo não recebeu exemplos rotulados de treino. Em vez de aprender uma lista fixa de classes, o modelo generaliza a noção de "objeto" e recorta o que você indicar.

← voltar para o guia completo

Acompanhe Visão Computacional no radar

Veja os papers, modelos e datasets de Visão Computacional em alta agora no Hugging Face.

Abrir radar de Visão Computacional