Paper Multimodal Dados & Embeddings

Domain Arithmetic: One-Shot VLA Adaptation under Environmental Shifts

Vision-Language-Action models can be efficiently adapted to new environments using a single demonstration through weight vector arithmetic that isolates domain-specific information…

Hugging Face · Daily Papers ·Taewook Kang, Taeheon Kim · 01 de janeiro de 2026 ·▲ 15 upvotes

Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.

Autores: Taewook Kang, Taeheon Kim, Donghyun Shin, Jonghyun Choi

15 upvotes da comunidade
Temas: Vision-Language-Action models, domain-specific information, weight vector arithmetic, subspace alignment, one-shot adaptation, environmental shifts

Resumo

Resumo original (em inglês), extraído do paper:

Vision-Language-Action models can be efficiently adapted to new environments using a single demonstration through weight vector arithmetic that isolates domain-specific information via subspace alignment.

Onde ler

Ver no Hugging Face

// relacionados

Domain Arithmetic: One-Shot VLA Adaptation under Environmental Shifts

Resumo

Onde ler

Leia também

O gargalo que ninguém via: por que modelos multimodais "colam" durante o treino

Steal the Patch Size: Adversarially Manipulate Vision-Language Models

What's Hidden Matters: Identifying Planning-Critical Occluded Agents using Vision-Language Models

Wake up for Touch! Mask-isolated Tactile Alignment Learning in MLLMs