Modelo LLMs & Texto

unsloth/Qwen-AgentWorld-35B-A3B-GGUF

Modelo de geração de texto · 35 B de parâmetros · MoE — 65.9 mil downloads e 78 curtidas no Hugging Face.

Hugging Face · Modelos ·unsloth · ·↓ 65869 ·♥ 78

O modelo unsloth/Qwen-AgentWorld-35B-A3B-GGUF aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de geração de texto.

Ficha técnica

  • Tarefa: geração de texto
  • Parâmetros: 35 B (arquitetura MoE)
  • Biblioteca: transformers
  • Formatos: GGUF
  • Licença: Apache 2.0
  • Downloads: 65.9 mil · Curtidas: 78

Hardware recomendado

Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).

  • Precisão original (16-bit): ~84 GB de VRAM — 1 GPU de data center (80 GB, ex. A100/H100)
  • Quantizado 8-bit: ~42 GB de VRAM — 1 GPU profissional (48 GB, ex. A6000) ou 2× 24 GB
  • Quantizado 4-bit: ~21 GB de VRAM — 1 GPU high-end (24 GB, ex. RTX 3090/4090)

Por ser um modelo MoE (mixture-of-experts), todos os pesos precisam caber na memória, mas só uma fração é ativada por token — a inferência roda mais rápido do que o tamanho total sugere.

Como rodar localmente

Os pesos estão em GGUF, prontos para rodar na CPU ou GPU com Ollama, llama.cpp ou LM Studio — sem Python.

# Ollama
ollama run hf.co/unsloth/Qwen-AgentWorld-35B-A3B-GGUF

# ou llama.cpp
llama-cli -hf unsloth/Qwen-AgentWorld-35B-A3B-GGUF -p "Explique o que é entropia."

Tags

transformers gguf qwen unsloth world-model agent environment-simulation text-generation

Abrir o modelo no Hugging Face →

compartilhar: