Modelo LLMs & Texto

mistralai/Leanstral-1.5-119B-A6B

Modelo de modelo · 119 B de parâmetros · MoE — 4 downloads e 67 curtidas no Hugging Face.

Hugging Face · Modelos ·mistralai · 03 de janeiro de 2026 ·↓ 4 ·♥ 67

O modelo mistralai/Leanstral-1.5-119B-A6B aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de modelo.

Ficha técnica

Tarefa: modelo
Parâmetros: 119 B (arquitetura MoE)
Biblioteca: vllm
Formatos: safetensors
Licença: Apache 2.0
Downloads: 4 · Curtidas: 67

Hardware recomendado

Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).

Precisão original (16-bit): ~286 GB de VRAM — cluster — ~4× GPU de 80 GB (A100/H100)
Quantizado 8-bit: ~143 GB de VRAM — cluster — ~2× GPU de 80 GB (A100/H100)
Quantizado 4-bit: ~71 GB de VRAM — 1 GPU de data center (80 GB, ex. A100/H100)

Por ser um modelo MoE (mixture-of-experts), todos os pesos precisam caber na memória, mas só uma fração é ativada por token — a inferência roda mais rápido do que o tamanho total sugere.

Como rodar localmente

Carregue com a transformers usando o template de chat:

pip install -U transformers accelerate torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Leanstral-1.5-119B-A6B"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype="auto", device_map="auto"
)

msgs = [{"role": "user", "content": "Explique o que é entropia."}]
inputs = tok.apply_chat_template(
    msgs, add_generation_prompt=True, return_tensors="pt"
).to(model.device)

out = model.generate(inputs, max_new_tokens=256)
print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))

Para servir como API (recomendado para modelos grandes), use o vLLM:

pip install vllm
vllm serve mistralai/Leanstral-1.5-119B-A6B

mistralai/Leanstral-1.5-119B-A6B

Ficha técnica

Hardware recomendado

Como rodar localmente

Tags

Leia também

Fable 5 volta ao ar depois de 19 dias banido — e a indústria propõe um "CVSS" para jailbreaks

OpenAI cofounder envisions "almost no interface" future where nobody learns software anymore

A 26,000-student study shows AI's hidden learning cost takes two full years to surface

Anthropic launches its own drug discovery programs to tackle diseases Big Pharma considers unprofitable