Modelo Multimodal LLMs & Texto

microsoft/GELab-Zero-4B-preview-Sico-Evolution

Modelo de visão e linguagem · 4 B de parâmetros — 352 downloads e 44 curtidas no Hugging Face.

Hugging Face · Modelos ·microsoft · 04 de janeiro de 2026 ·↓ 352 ·♥ 44

O modelo microsoft/GELab-Zero-4B-preview-Sico-Evolution aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de visão e linguagem.

Ficha técnica

Tarefa: visão e linguagem
Parâmetros: 4 B
Biblioteca: transformers
Formatos: safetensors
Licença: Apache 2.0
Downloads: 352 · Curtidas: 44

Hardware recomendado

Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).

Precisão original (16-bit): ~9.6 GB de VRAM — 1 GPU de consumo (12 GB, ex. RTX 3060/4070)
Quantizado 8-bit: ~4.8 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)
Quantizado 4-bit: ~2.4 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)

Como rodar localmente

Modelo de visão e linguagem — envie imagem + texto:

pip install -U transformers accelerate torch

from transformers import pipeline

vlm = pipeline("image-text-to-text", model="microsoft/GELab-Zero-4B-preview-Sico-Evolution", device=0)
msgs = [{"role": "user", "content": [
    {"type": "image", "url": "https://exemplo.com/foto.jpg"},
    {"type": "text", "text": "Descreva a imagem."},
]}]
print(vlm(text=msgs, max_new_tokens=200))

microsoft/GELab-Zero-4B-preview-Sico-Evolution

Ficha técnica

Hardware recomendado

Como rodar localmente

Tags

Leia também

Um passo errado no início contamina todo o resto: a IA médica que aprendeu a se corrigir cedo

Hollywood wants Seedance banned and reportedly also wants to keep using it

Orientação de Segurança Neuro-Simbólica para Modelos de Visão-Linguagem-Ação via Correspondência de Fluxo Restrita

PairCoder++: Pair Programming as a Universal Paradigm for Verified Code-Driven Multimodal and Structured-Artifact Generation