Editorial Multimodal

Cosmos 3: o primeiro modelo aberto que vê, simula e age no mundo físico

A NVIDIA lança um "omnimodelo" — arquitetura única que combina razão visual, simulação de mundo e predição de ação — e o libera sob licença open-model.

Ponto Zero ·

Desenvolver um sistema robótico ou um veículo autônomo costumava exigir uma cadeia de modelos separados: um para visão, outro para raciocínio sobre o ambiente, outro para prever estados futuros do mundo, outro para gerar trajetórias de ação. Cada modelo tem sua própria API, seu próprio formato de dados, seus próprios erros de borda. A integração entre eles é, muitas vezes, onde os projetos afundam.

O Cosmos 3, lançado pela NVIDIA no GTC Taipei em junho de 2026, propõe uma mudança de arquitetura: colocar tudo isso num único modelo. Visão, linguagem, simulação de vídeo, som ambiental e predição de ação — gerados em conjunto, a partir de uma representação compartilhada do mundo físico. A empresa chama o resultado de "omnimodelo", e está disponibilizando os pesos sob licença open-model com uso comercial permitido.

Por que unificar em vez de combinar

A razão técnica para unificação é coerência de representação. Quando visão e ação são processadas por modelos separados, o pipeline de integração precisa traduzir entre espaços de representação diferentes — e essa tradução carrega erro. Um modelo que aprende visão e ação conjuntamente, sobre os mesmos dados, pode construir uma representação do mundo que é intrinsecamente útil para ambas as tarefas.

O Cosmos 3 usa uma arquitetura mixture-of-transformers: um transformer de raciocínio e um transformer especializado em geração trabalham em conjunto. O raciocínio acontece primeiro — o modelo infere interações entre objetos, movimento e relações espaciotemporais. A geração de vídeo, som e trajetória de ação vem depois, condicionada a esse entendimento prévio.

Isso muda a física do erro. Em vez de propagar imprecisões entre modelos distintos, os erros ficam contidos numa única representação que pode ser otimizada de forma conjunta.

O que o modelo consegue fazer

O Cosmos 3 opera em cinco modalidades ao mesmo tempo: texto, imagem, vídeo, som ambiental e trajetórias de ação. Ele pode receber uma descrição textual de uma tarefa robótica e gerar um vídeo simulado de como aquela tarefa se parece — incluindo as ações que um braço robótico executaria, quadro a quadro.

Para veículos autônomos, o modelo consegue simular cenários de trânsito a partir de prompts textuais ou de dados de sensor, criando ambientes de teste sintéticos com precisão física superior à de geradores anteriores. Isso reduz a dependência de quilômetros rodados em situações raras — como nevascas ou falhas de semáforo — que são difíceis de capturar em dados reais.

A NVIDIA afirma que o Cosmos 3 ocupa o primeiro lugar em modelos abertos em sete benchmarks de referência — incluindo Physics-IQ, PAI-Bench e R-Bench para geração de mundo, e RoboLab e RoboArena para política de ação. São métricas específicas de IA física, não as avaliações gerais de modelos de linguagem às quais a maioria dos leitores está acostumada.

  • Cosmos 3 Super (32B parâmetros): máxima precisão física, voltado para pós-treinamento de robótica e veículos autônomos
  • Cosmos 3 Nano (8B parâmetros): geração de vídeo e raciocínio de ação em frações de segundo
  • Cosmos 3 Edge: variante para inferência em tempo real em hardware embarcado (em breve)
  • Dados de treinamento: bilhões de amostras em texto, imagem, vídeo, som e trajetórias de ação
  • Licença: NVIDIA Open Model License — uso comercial permitido, derivativos permitidos
  • Disponibilidade: build.nvidia.com, Hugging Face e GitHub agora

O que muda para quem desenvolve robótica

O impacto mais imediato é na geração de dados sintéticos. Treinar políticas de controle robótico exige muitas trajetórias — e coletar trajetórias reais é caro, lento e perigoso. Com o Cosmos 3, é possível gerar trajetórias simuladas fisicamente plausíveis e usá-las para pré-treinar ou fazer fine-tuning de políticas reais.

A promessa da NVIDIA é reduzir ciclos de treinamento e avaliação de meses para dias. Isso soa como marketing de lançamento, e provavelmente é — mas o mecanismo pelo qual isso aconteceria é tecnicamente credível. A geração de ambientes de treinamento sintéticos é um gargalo real; um modelo que faz isso bem e está disponível abertamente muda o cálculo.

Para equipes menores, o acesso aberto é o fator mais transformador. Os modelos anteriores de simulação física de ponta — incluindo versões do próprio Cosmos — tinham restrições comerciais ou exigiam créditos de nuvem proprietários. O Cosmos 3 pode ser baixado, modificado e implantado sem essas restrições.

Onde o ceticismo é necessário

Modelos de simulação de mundo ainda têm limitações físicas conhecidas. Fenômenos de contato — fricção, deformação de materiais moles, comportamento de líquidos — são notoriamente difíceis de simular com fidelidade suficiente para treinar políticas que funcionem no mundo real. O sim-to-real gap (a diferença entre o que o modelo aprendeu em simulação e o que funciona no hardware real) é um problema aberto em robótica, e um omnimodelo não o resolve magicamente.

Os benchmarks citados — Physics-IQ, PAI-Bench — são relativamente novos e não têm o histórico de adoção que tornaria fácil calibrar o quanto os números correspondem a ganhos práticos. Primeiro lugar em sete benchmarks é um dado; quanto isso se traduz em robôs que funcionam melhor é uma pergunta diferente.

O Cosmos 3 representa uma aposta arquitetural séria — e uma disponibilização em termos favoráveis. Mas robótica é um campo que regularmente derruba promessas de modelos que funcionam em demo e falham na linha de produção. O teste real virá com os projetos que a comunidade construirá sobre esses pesos nas próximas semanas.

Perguntas Frequentes

O que é um "omnimodelo"?

É um modelo de IA que processa e gera múltiplas modalidades — texto, imagem, vídeo, áudio e ação — numa única arquitetura, em vez de encadear modelos separados para cada tarefa.

Qual a diferença entre Cosmos 3 e os modelos de mundo anteriores?

As versões anteriores do Cosmos (e outros modelos de simulação de mundo) eram especializados em geração de vídeo ou em raciocínio visual. O Cosmos 3 integra predição de ação — trajetórias que um robô ou veículo executaria — na mesma representação que processa visão e linguagem.

Posso usar o Cosmos 3 comercialmente?

Sim. A NVIDIA Open Model License permite uso comercial e criação de modelos derivados. Os pesos estão disponíveis no Hugging Face e no GitHub.

O Cosmos 3 substitui o Isaac Sim ou outros ambientes de simulação?

Não exatamente. O Isaac Sim é um ambiente de simulação física completo; o Cosmos 3 é um modelo de geração que produz vídeo e ações fisicamente plausíveis. Eles são complementares — o Cosmos 3 pode gerar dados sintéticos que alimentam pipelines de treinamento que rodam em simuladores como o Isaac.

compartilhar: