Modelo LLMs & Texto

nvidia/GLM-5.2-NVFP4

Modelo de geração de texto — 6.5 mil downloads e 124 curtidas no Hugging Face.

Hugging Face · Modelos ·nvidia · 26 de janeiro de 2026 ·↓ 6464 ·♥ 124

O modelo nvidia/GLM-5.2-NVFP4 aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de geração de texto.

Ficha técnica

Tarefa: geração de texto
Biblioteca: Model Optimizer
Formatos: safetensors
Licença: MIT
Downloads: 6.5 mil · Curtidas: 124

Como rodar localmente

Carregue com a transformers usando o template de chat:

pip install -U transformers accelerate torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "nvidia/GLM-5.2-NVFP4"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype="auto", device_map="auto"
)

msgs = [{"role": "user", "content": "Explique o que é entropia."}]
inputs = tok.apply_chat_template(
    msgs, add_generation_prompt=True, return_tensors="pt"
).to(model.device)

out = model.generate(inputs, max_new_tokens=256)
print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))

Para servir como API (recomendado para modelos grandes), use o vLLM:

pip install vllm
vllm serve nvidia/GLM-5.2-NVFP4

nvidia/GLM-5.2-NVFP4

Ficha técnica

Como rodar localmente

Tags

Leia também

Meddies/meddies-persona-vie

SoftBank’s CEO isn’t the only one with questions about Elon Musk’s orbital data center hype

Anthropic's Fable 5 could return within days as Trump administration prepares to lift restrictions

Apple Vision Pro exec is reportedly leaving for OpenAI