Jackrong/Qwopus3.6-35B-A3B-Coder-MTP-GGUF
Modelo de visão e linguagem · 35 B de parâmetros · MoE — 0 downloads e 46 curtidas no Hugging Face.
O modelo Jackrong/Qwopus3.6-35B-A3B-Coder-MTP-GGUF aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de visão e linguagem.
Ficha técnica
- Tarefa: visão e linguagem
- Parâmetros: 35 B (arquitetura MoE)
- Biblioteca:
transformers - Formatos: GGUF
- Licença: Apache 2.0
- Downloads: 0 · Curtidas: 46
Hardware recomendado
Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).
- Precisão original (16-bit): ~84 GB de VRAM — 1 GPU de data center (80 GB, ex. A100/H100)
- Quantizado 8-bit: ~42 GB de VRAM — 1 GPU profissional (48 GB, ex. A6000) ou 2× 24 GB
- Quantizado 4-bit: ~21 GB de VRAM — 1 GPU high-end (24 GB, ex. RTX 3090/4090)
Por ser um modelo MoE (mixture-of-experts), todos os pesos precisam caber na memória, mas só uma fração é ativada por token — a inferência roda mais rápido do que o tamanho total sugere.
Como rodar localmente
Os pesos estão em GGUF, prontos para rodar na CPU ou GPU com Ollama, llama.cpp ou LM Studio — sem Python.
# Ollama
ollama run hf.co/Jackrong/Qwopus3.6-35B-A3B-Coder-MTP-GGUF
# ou llama.cpp
llama-cli -hf Jackrong/Qwopus3.6-35B-A3B-Coder-MTP-GGUF -p "Explique o que é entropia."Tags
transformers gguf llama.cpp image-text-to-text vision multimodal text-generation-inference unsloth