LocateAnything-3B: a NVIDIA ensina um modelo a apontar o dedo na imagem
Um modelo aberto de 3 bilhões de parâmetros transforma uma frase em coordenadas precisas na imagem — e o faz prevendo a caixa inteira de uma vez, com até 2,5× mais velocidade de decodificação.
Peça a um modelo de visão que descreva uma foto e ele se sai bem. Peça que aponte exatamente onde está "o botão de enviar no canto inferior direito" ou "o terceiro parafuso da esquerda", e a coisa complica. Descrever é uma habilidade; localizar com precisão de pixel é outra. A NVIDIA acaba de lançar um modelo aberto dedicado justamente a essa segunda: o LocateAnything-3B.
Com 3 bilhões de parâmetros, ele pega uma descrição em linguagem natural e devolve a posição correspondente na imagem — uma caixa delimitadora ou um ponto. Um único modelo generalista cobre detecção de objetos, grounding de expressões, localização de elementos de interface, leitura posicional de texto e apontamento por ponto. Tudo isso a partir de uma frase.
O que é "grounding" visual
Grounding — ancoragem — é o nome técnico para ligar uma palavra a um lugar concreto na imagem. Quando você diz "o cachorro atrás da cadeira" e o modelo desenha uma caixa exatamente ali, ele fez grounding. É a ponte entre a linguagem e o espaço visual, e é o que permite a um agente clicar no botão certo de uma tela, a um robô pegar o objeto certo da bancada, ou a um sistema de documentos achar o campo certo de um formulário.
O LocateAnything faz isso de forma unificada: em vez de um modelo para detecção, outro para interfaces, outro para OCR posicional, um só resolve todos os casos. Ele foi treinado num pipeline de quatro estágios — primeiro adaptação multimodal ampla (legendagem, perguntas e respostas visuais, OCR), depois ajuste fino em grounding e em cenas densas, cheias de objetos.
A ideia central: prever a caixa de uma vez
O detalhe técnico que faz o modelo se destacar é como ele desenha a caixa. Modelos de visão-linguagem costumam gerar coordenadas do jeito que geram texto: um número de cada vez, em sequência — primeiro o x, depois o y, depois a largura, a altura. É lento e propenso a acumular erro token a token.
O LocateAnything usa Parallel Box Decoding (PBD), ou decodificação paralela de caixas. Em vez de cuspir coordenada por coordenada, ele prevê a caixa inteira — ou o ponto inteiro — num único passo estruturado. O resultado é até 2,5× mais velocidade de decodificação e, ainda por cima, localização mais precisa nos casos de alta exigência (o chamado alto IoU, quando a caixa prevista precisa encaixar quase perfeitamente na real).
- Modelo:
nvidia/LocateAnything-3B— 3B de parâmetros, precisão BF16, pesos abertos. - Inovação: Parallel Box Decoding (PBD) — prevê a caixa completa em um passo, não coordenada a coordenada.
- Ganho: até 2,5× mais throughput de decodificação, com melhor precisão em alto IoU.
- Tarefas: detecção, grounding de frases, elementos de UI, localização de texto/OCR e apontamento por ponto — num só modelo.
Por que a velocidade importa aqui
Grounding raramente é o fim — é um passo intermediário. Um agente que controla um computador precisa localizar o botão antes de clicar, e faz isso dezenas de vezes por tarefa. Um robô precisa achar o objeto antes de mover o braço. Nesses laços, cada milissegundo de decodificação se multiplica. Cortar o tempo de localização em mais da metade não é refinamento cosmético: é o que torna o sistema utilizável em tempo real.
Que a NVIDIA — cuja fortuna vem do hardware que roda esses modelos — invista num modelo aberto e eficiente de grounding não é acaso. Quanto mais fluido o elo entre linguagem e ação, mais casos de uso migram para as GPUs dela. O modelo é aberto; o ecossistema em volta, nem tanto.
Perguntas Frequentes
O que o LocateAnything-3B faz, na prática?
Recebe uma descrição em linguagem natural e devolve onde aquilo está na imagem — uma caixa ou um ponto. Serve para detecção de objetos, localização de elementos de tela, leitura posicional de texto e apontamento, tudo num modelo só.
O que é Parallel Box Decoding?
É a técnica central do modelo: em vez de gerar as coordenadas da caixa uma a uma como faz um gerador de texto, ele prevê a caixa inteira de uma vez. Isso dá até 2,5× mais velocidade e melhor precisão em localizações exigentes.
Para que serve grounding visual?
Para ligar palavras a lugares concretos na imagem. É o que permite a agentes clicarem no elemento certo de uma interface, a robôs pegarem o objeto certo e a sistemas acharem o campo certo de um documento.
O modelo é aberto?
Sim. Está disponível no Hugging Face como nvidia/LocateAnything-3B, com 3 bilhões de parâmetros em precisão BF16.