Paper LLMs & Texto Multimodal

AnyGroundBench: A Specialized-Domain Benchmark for Video Grounding in Vision-Language Models

Vision-Language Models struggle with domain adaptation in specialized spatio-temporal video grounding tasks, highlighting limitations in zero-shot generalization and in-context lea…

Hugging Face · Daily Papers ·Rintaro Otsubo, Ryo Fujii · 02 de janeiro de 2026 ·▲ 7 upvotes

Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.

Autores: Rintaro Otsubo, Ryo Fujii, Reina Ishikawa, Taiki Kanaya, Kanta Sawafuji, Hiroki Kajita

7 upvotes da comunidade
Temas: Vision-Language Models, Spatio-Temporal Video Grounding, domain adaptation, In-Context Learning, zero-shot generalization

Resumo

Resumo original (em inglês), extraído do paper:

Vision-Language Models struggle with domain adaptation in specialized spatio-temporal video grounding tasks, highlighting limitations in zero-shot generalization and in-context learning capabilities.

Onde ler

Ver no Hugging Face

// relacionados

AnyGroundBench: A Specialized-Domain Benchmark for Video Grounding in Vision-Language Models

Resumo

Onde ler

Leia também

O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico

AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

ByteDance-Seed/EdgeBench

Google DeepMind e A24 anunciam parceria de pesquisa inédita