LocateAnything-3B: o modelo da NVIDIA que aponta o dedo

Descreva qualquer coisa numa imagem em linguagem natural e ele desenha a caixa em volta — botão de interface, defeito industrial ou pedestre. E prevê as coordenadas em paralelo, não letra por letra.

Ponto Zero ·

Reconhecer que há um gato na foto é uma coisa. Dizer exatamente onde está o gato — e fazer isso quando o pedido vem em português, sobre um objeto que o modelo nunca viu nomeado assim — é outra bem mais difícil. Esse segundo problema tem nome técnico: grounding visual, ou ancoragem. É a ponte entre a linguagem e a coordenada na tela.

O LocateAnything-3B, lançado pela NVIDIA no Hugging Face, é uma das tentativas mais completas de resolvê-lo num único modelo. Você descreve o que quer — "o botão de salvar", "a trinca na solda", "o pedestre à direita" — e ele devolve a caixa delimitadora em volta. Com 3 bilhões de parâmetros, é pequeno o bastante para rodar perto da câmera, e foi treinado numa escala que explica boa parte da sua versatilidade.

O que é grounding visual

Modelos de visão tradicionais são treinados para um catálogo fixo: este detector conhece "pessoa", "carro", "cachorro" e mais algumas dezenas de classes, e nada além disso. O grounding inverte a lógica. Em vez de escolher de uma lista, o modelo recebe uma frase livre e precisa localizar o que ela descreve — mesmo que seja "a terceira garrafa da esquerda" ou "o ícone de engrenagem".

A saída é uma caixa delimitadora: quatro números que marcam um retângulo sobre o objeto, no formato <box>x1,y1,x2,y2</box>. É a diferença entre um modelo que sabe que algo existe e um que sabe onde — e onde é o que importa para um robô que vai pegar o objeto ou um agente que vai clicar no botão.

A engenharia: prever a caixa de uma vez

O LocateAnything-3B combina três peças: um codificador visual chamado MoonViT, um modelo de linguagem Qwen2.5-3B e um projetor que costura os dois. Mas a inovação que a NVIDIA destaca está na saída. Modelos de visão-linguagem costumam "escrever" as coordenadas como se fossem texto — primeiro o x1, depois o y1, um número de cada vez. É lento e desnecessário.

O modelo usa o que chama de Parallel Box Decoding: prevê os quatro cantos da caixa de uma só vez, em bloco. O resultado é 2,5 vezes mais vazão que abordagens anteriores. E ele oferece três modos — um rápido, um cuidadoso (autorregressivo) e um híbrido que tenta o atalho e recua para o método lento quando desconfia do resultado.

  • 3 bilhões de parâmetros: codificador MoonViT + Qwen2.5-3B + projetor.
  • Treinado em 12 milhões de imagens, 138+ milhões de consultas, 785 milhões de caixas.
  • Decodificação paralela de caixas: 2,5× mais vazão que o método sequencial.
  • Aceita imagens de até 2,5K de resolução e prompts de até 24 mil tokens.
  • Licença NVIDIA — uso acadêmico e não comercial.

Por que a escala do treino importa

Os números de treino contam a história da versatilidade: 12 milhões de imagens, 138 milhões de descrições em linguagem natural e 785 milhões de caixas, cobrindo robótica, direção autônoma, interfaces gráficas, documentos e cenas do cotidiano. É essa diversidade que permite ao mesmo modelo localizar um pedestre numa rua e um campo de formulário numa tela.

A capacidade de ancorar elementos de interface, em particular, é o que torna o LocateAnything relevante para a onda de agentes que operam computadores. Um agente que precisa clicar num botão antes tem de saber onde o botão está — em pixels, não em conceito. Modelos de grounding são a camada de percepção que falta a boa parte desses sistemas.

O senão da licença

A NVIDIA liberou os pesos, mas sob licença própria, restrita a uso acadêmico e não comercial. Isso muda o cálculo. Para pesquisa, é um presente — um modelo de grounding de ponta, treinado em escala industrial, disponível para estudo. Para quem queria embutir o modelo num produto, é uma porta entreaberta: dá para experimentar e medir, não para enviar ao cliente sem renegociar os termos.

É uma forma de abertura cada vez mais comum — pesos públicos, uso comercial fechado — e que merece ser lida com clareza. "Disponível" não é sinônimo de "livre". No caso do LocateAnything, o valor científico é real; a liberdade comercial, não.

Perguntas Frequentes

Qual a diferença entre detecção de objetos e grounding visual?

A detecção tradicional reconhece classes de um catálogo fixo ("pessoa", "carro"). O grounding localiza qualquer coisa descrita em linguagem natural livre, mesmo categorias que o modelo nunca viu nomeadas, devolvendo a caixa que delimita o objeto na imagem.

Posso usar o LocateAnything-3B num produto comercial?

Não sem renegociar. A licença da NVIDIA restringe o uso a fins acadêmicos e não comerciais. Os pesos estão públicos para pesquisa e avaliação, mas embutir o modelo num produto exige acordo separado.

Por que prever a caixa em paralelo é mais rápido?

Porque dispensa gerar as coordenadas número por número, como faz o método autorregressivo. O Parallel Box Decoding produz os quatro cantos de uma vez, o que rende 2,5 vezes mais vazão — útil em aplicações de tempo real como robótica e agentes de interface.

compartilhar: