Modelo LLMs & Texto Multimodal

yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2

Modelo de geração de texto · 12 B de parâmetros — 281 downloads e 46 curtidas no Hugging Face.

Hugging Face · Modelos ·yuxinlu1 · 30 de janeiro de 2026 ·↓ 281 ·♥ 46

O modelo yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2 aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de geração de texto.

Ficha técnica

Tarefa: geração de texto
Parâmetros: 12 B
Biblioteca: transformers
Formatos: safetensors
Licença: Apache 2.0
Downloads: 281 · Curtidas: 46

Hardware recomendado

Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).

Precisão original (16-bit): ~29 GB de VRAM — 1 GPU profissional (48 GB, ex. A6000) ou 2× 24 GB
Quantizado 8-bit: ~14 GB de VRAM — 1 GPU high-end (24 GB, ex. RTX 3090/4090)
Quantizado 4-bit: ~7.2 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)

Como rodar localmente

Carregue com a transformers usando o template de chat:

pip install -U transformers accelerate torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype="auto", device_map="auto"
)

msgs = [{"role": "user", "content": "Explique o que é entropia."}]
inputs = tok.apply_chat_template(
    msgs, add_generation_prompt=True, return_tensors="pt"
).to(model.device)

out = model.generate(inputs, max_new_tokens=256)
print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))

Para servir como API (recomendado para modelos grandes), use o vLLM:

pip install vllm
vllm serve yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2

yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2

Ficha técnica

Hardware recomendado

Como rodar localmente

Tags

Leia também

O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico

AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

ByteDance-Seed/EdgeBench

Google DeepMind e A24 anunciam parceria de pesquisa inédita