Paper LLMs & Texto Geração de Imagem

InstanceControl: Controllable Complex Image Generation without Instance Labeling

InstanceControl enables multi-instance image generation by using vision-language models to establish instance-level correspondences between text prompts and visual conditions, whil…

Hugging Face · Daily Papers ·Xiaoyu Liu, Huan Wang · 30 de janeiro de 2026 ·▲ 8 upvotes

Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.

Autores: Xiaoyu Liu, Huan Wang, Fan Li, Zhixin Wang, Jiaqi Xu, Ming Liu

8 upvotes da comunidade
Temas: ControlNet, Vision-Language Model, instance-level correspondences, instance masks, adaptive mask refinement, multi-instance scenes

Resumo

Resumo original (em inglês), extraído do paper:

InstanceControl enables multi-instance image generation by using vision-language models to establish instance-level correspondences between text prompts and visual conditions, while employing adaptive mask refinement for improved accuracy.

Onde ler

Ver no Hugging Face

// relacionados

InstanceControl: Controllable Complex Image Generation without Instance Labeling

Resumo

Onde ler

Leia também

O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico

AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

ByteDance-Seed/EdgeBench

Google DeepMind e A24 anunciam parceria de pesquisa inédita