microsoft/GELab-Zero-4B-preview-Sico-Evolution

Modelo de visão e linguagem · 4 B de parâmetros — 352 downloads e 44 curtidas no Hugging Face.

Hugging Face · Modelos ·microsoft · ·↓ 352 ·♥ 44

O modelo microsoft/GELab-Zero-4B-preview-Sico-Evolution aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de visão e linguagem.

Ficha técnica

  • Tarefa: visão e linguagem
  • Parâmetros: 4 B
  • Biblioteca: transformers
  • Formatos: safetensors
  • Licença: Apache 2.0
  • Downloads: 352 · Curtidas: 44

Hardware recomendado

Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).

  • Precisão original (16-bit): ~9.6 GB de VRAM — 1 GPU de consumo (12 GB, ex. RTX 3060/4070)
  • Quantizado 8-bit: ~4.8 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)
  • Quantizado 4-bit: ~2.4 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)

Como rodar localmente

Modelo de visão e linguagem — envie imagem + texto:

pip install -U transformers accelerate torch

from transformers import pipeline

vlm = pipeline("image-text-to-text", model="microsoft/GELab-Zero-4B-preview-Sico-Evolution", device=0)
msgs = [{"role": "user", "content": [
    {"type": "image", "url": "https://exemplo.com/foto.jpg"},
    {"type": "text", "text": "Descreva a imagem."},
]}]
print(vlm(text=msgs, max_new_tokens=200))

Tags

transformers safetensors qwen3_vl image-text-to-text gui-agent mobile-agent vision-language qwen3-vl

Abrir o modelo no Hugging Face →

compartilhar: