artigo · Visão Computacional

Detecção de Objetos: De YOLO a DETR

Classificar uma foto inteira é fácil; dizer onde está cada coisa, não. A detecção de objetos é o salto do "o quê" para o "o quê e onde" — e é o que faz uma câmera distinguir um pedestre de um poste.

Saber que uma imagem contém um carro é útil. Saber que há três carros, e exatamente onde cada um está, é o que viabiliza um sistema de trânsito, uma linha de inspeção ou um carro autônomo. Esse é o trabalho da detecção de objetos: localizar e classificar, ao mesmo tempo, cada item relevante de uma cena.

O que é, na prática

A saída de um detector não é um rótulo único, e sim uma lista. Para cada objeto encontrado, ele devolve dois elementos: uma caixa delimitadora (bounding box, o retângulo que cerca o objeto) e uma classe com um grau de confiança — "carro, 0,93". Uma imagem com muitos objetos gera muitas caixas, cada uma com seu rótulo.

O desafio é duplo: encontrar todos os objetos sem inventar os que não existem, e desenhar caixas justas, nem largas demais nem cortando o objeto.

A família YOLO: detecção em tempo real

YOLO significa You Only Look Once — "você só olha uma vez". O nome resume a sacada: em vez de varrer a imagem em busca de candidatos e depois classificá-los em etapas separadas, o YOLO faz tudo numa única passagem da rede. A imagem entra, as caixas e classes saem.

Essa arquitetura de passo único é o que torna o YOLO rápido o suficiente para vídeo em tempo real, processando dezenas de quadros por segundo. Ao longo de várias versões, a família se tornou o padrão de fato para aplicações em que latência importa: vigilância, robótica, esportes, dirigibilidade. O custo histórico foi alguma perda de precisão em objetos pequenos ou aglomerados, lacuna que cada nova versão estreitou.

  • Caixa delimitadora: o retângulo que localiza o objeto.
  • Passo único: o YOLO prevê tudo numa só passagem — daí a velocidade.
  • Tempo real: dezenas de quadros por segundo, ideal para vídeo.
  • Compromisso clássico: velocidade vs. precisão em objetos pequenos.

DETR: detecção com transformers

O DETR (DEtection TRansformer) repensou o problema. Detectores tradicionais dependem de etapas artesanais — gerar milhares de caixas candidatas e depois eliminar as repetidas com uma técnica chamada non-maximum suppression. O DETR descartou esse aparato: ele trata a detecção como um problema de previsão direta de um conjunto de objetos, usando o mecanismo de atenção dos transformers.

Na prática, o modelo recebe a imagem e emite, de uma vez, o conjunto final de caixas — sem pós-processamento manual. A elegância tem preço: o DETR original era mais lento para treinar e exigia muitos dados. Variantes posteriores corrigiram boa parte disso, e a abordagem com atenção virou uma linha de pesquisa central no campo.

Como medir um detector: mAP e IoU

Dizer que um detector é "bom" exige número. Duas métricas dominam:

  • IoU (Intersection over Union): mede o quanto a caixa prevista se sobrepõe à caixa correta. Calcula-se a área de interseção dividida pela área de união das duas. IoU de 1,0 é sobreposição perfeita; abaixo de um limiar (tipicamente 0,5), a detecção é considerada errada.
  • mAP (mean Average Precision): a média da precisão do modelo em todas as classes e em vários limiares de confiança. É o número que resume, num só valor, o quão bem o detector acerta e localiza. Quanto mais alto, melhor — mas compare sempre no mesmo dataset, pois mAP entre bases diferentes não significa nada.

Onde se usa

A detecção é a camada de percepção de quase tudo que precisa agir sobre o mundo visual: veículos autônomos identificando obstáculos, câmeras de varejo contando produtos, drones inspecionando torres, sistemas médicos localizando nódulos, esportes rastreando jogadores e bola. Sempre que a pergunta é "onde está", há um detector por trás.

Perguntas Frequentes

Qual a diferença entre classificação e detecção?

A classificação atribui um único rótulo à imagem inteira ("isto é um gato"). A detecção encontra cada objeto, desenha uma caixa em volta e o classifica individualmente — pode haver vários objetos, de classes diferentes, na mesma imagem.

YOLO é sempre a melhor escolha?

É a melhor quando velocidade importa, como em vídeo ao vivo. Para casos em que a precisão máxima vale mais que a latência, abordagens baseadas em transformers ou detectores de dois estágios podem render mais. A escolha depende do compromisso entre rapidez e exatidão.

O que significa um mAP de 50%?

É um resumo da precisão média do detector naquele dataset específico, considerando vários limiares. Sozinho, o número diz pouco: só faz sentido comparado a outros modelos avaliados na mesma base e nas mesmas condições.

Por que o detector às vezes desenha duas caixas no mesmo objeto?

Porque a rede pode propor várias caixas para o mesmo item. Detectores tradicionais usam técnicas de pós-processamento para eliminar as duplicatas; quando essa etapa falha ou é mal calibrada, sobram caixas redundantes.

Acompanhe Visão Computacional no radar

Veja os papers, modelos e datasets de Visão Computacional em alta agora no Hugging Face.

Abrir radar de Visão Computacional