Editorial Multimodal

LocateAnything-3B: a NVIDIA ensina um modelo a apontar o dedo na imagem

Um modelo aberto de 3 bilhões de parâmetros transforma uma frase em coordenadas precisas na imagem — e o faz prevendo a caixa inteira de uma vez, com até 2,5× mais velocidade de decodificação.

Ponto Zero ·

Peça a um modelo de visão que descreva uma foto e ele se sai bem. Peça que aponte exatamente onde está "o botão de enviar no canto inferior direito" ou "o terceiro parafuso da esquerda", e a coisa complica. Descrever é uma habilidade; localizar com precisão de pixel é outra. A NVIDIA acaba de lançar um modelo aberto dedicado justamente a essa segunda: o LocateAnything-3B.

Com 3 bilhões de parâmetros, ele pega uma descrição em linguagem natural e devolve a posição correspondente na imagem — uma caixa delimitadora ou um ponto. Um único modelo generalista cobre detecção de objetos, grounding de expressões, localização de elementos de interface, leitura posicional de texto e apontamento por ponto. Tudo isso a partir de uma frase.

O que é "grounding" visual

Grounding — ancoragem — é o nome técnico para ligar uma palavra a um lugar concreto na imagem. Quando você diz "o cachorro atrás da cadeira" e o modelo desenha uma caixa exatamente ali, ele fez grounding. É a ponte entre a linguagem e o espaço visual, e é o que permite a um agente clicar no botão certo de uma tela, a um robô pegar o objeto certo da bancada, ou a um sistema de documentos achar o campo certo de um formulário.

O LocateAnything faz isso de forma unificada: em vez de um modelo para detecção, outro para interfaces, outro para OCR posicional, um só resolve todos os casos. Ele foi treinado num pipeline de quatro estágios — primeiro adaptação multimodal ampla (legendagem, perguntas e respostas visuais, OCR), depois ajuste fino em grounding e em cenas densas, cheias de objetos.

A ideia central: prever a caixa de uma vez

O detalhe técnico que faz o modelo se destacar é como ele desenha a caixa. Modelos de visão-linguagem costumam gerar coordenadas do jeito que geram texto: um número de cada vez, em sequência — primeiro o x, depois o y, depois a largura, a altura. É lento e propenso a acumular erro token a token.

O LocateAnything usa Parallel Box Decoding (PBD), ou decodificação paralela de caixas. Em vez de cuspir coordenada por coordenada, ele prevê a caixa inteira — ou o ponto inteiro — num único passo estruturado. O resultado é até 2,5× mais velocidade de decodificação e, ainda por cima, localização mais precisa nos casos de alta exigência (o chamado alto IoU, quando a caixa prevista precisa encaixar quase perfeitamente na real).

  • Modelo: nvidia/LocateAnything-3B — 3B de parâmetros, precisão BF16, pesos abertos.
  • Inovação: Parallel Box Decoding (PBD) — prevê a caixa completa em um passo, não coordenada a coordenada.
  • Ganho: até 2,5× mais throughput de decodificação, com melhor precisão em alto IoU.
  • Tarefas: detecção, grounding de frases, elementos de UI, localização de texto/OCR e apontamento por ponto — num só modelo.

Por que a velocidade importa aqui

Grounding raramente é o fim — é um passo intermediário. Um agente que controla um computador precisa localizar o botão antes de clicar, e faz isso dezenas de vezes por tarefa. Um robô precisa achar o objeto antes de mover o braço. Nesses laços, cada milissegundo de decodificação se multiplica. Cortar o tempo de localização em mais da metade não é refinamento cosmético: é o que torna o sistema utilizável em tempo real.

Que a NVIDIA — cuja fortuna vem do hardware que roda esses modelos — invista num modelo aberto e eficiente de grounding não é acaso. Quanto mais fluido o elo entre linguagem e ação, mais casos de uso migram para as GPUs dela. O modelo é aberto; o ecossistema em volta, nem tanto.

Perguntas Frequentes

O que o LocateAnything-3B faz, na prática?

Recebe uma descrição em linguagem natural e devolve onde aquilo está na imagem — uma caixa ou um ponto. Serve para detecção de objetos, localização de elementos de tela, leitura posicional de texto e apontamento, tudo num modelo só.

O que é Parallel Box Decoding?

É a técnica central do modelo: em vez de gerar as coordenadas da caixa uma a uma como faz um gerador de texto, ele prevê a caixa inteira de uma vez. Isso dá até 2,5× mais velocidade e melhor precisão em localizações exigentes.

Para que serve grounding visual?

Para ligar palavras a lugares concretos na imagem. É o que permite a agentes clicarem no elemento certo de uma interface, a robôs pegarem o objeto certo e a sistemas acharem o campo certo de um documento.

O modelo é aberto?

Sim. Está disponível no Hugging Face como nvidia/LocateAnything-3B, com 3 bilhões de parâmetros em precisão BF16.

compartilhar: