bosonai/higgs-tts-3-4b
Modelo de síntese de voz · 4 B de parâmetros — 87.7 mil downloads e 546 curtidas no Hugging Face.
Hugging Face · Modelos
·bosonai
·
·↓ 87740
·♥ 546
O modelo bosonai/higgs-tts-3-4b aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de síntese de voz.
Ficha técnica
- Tarefa: síntese de voz
- Parâmetros: 4 B
- Biblioteca:
transformers - Formatos: safetensors
- Licença: proprietária / outra
- Downloads: 87.7 mil · Curtidas: 546
Hardware recomendado
Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).
- Precisão original (16-bit): ~9.6 GB de VRAM — 1 GPU de consumo (12 GB, ex. RTX 3060/4070)
- Quantizado 8-bit: ~4.8 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)
- Quantizado 4-bit: ~2.4 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)
Como rodar localmente
Sintetize voz/áudio com a transformers (alguns modelos exigem o código do autor — confira o card):
pip install -U transformers torch
from transformers import pipeline
tts = pipeline("text-to-speech", model="bosonai/higgs-tts-3-4b", device=0)
out = tts("Olá! Esta é uma voz sintética.")
# out["audio"], out["sampling_rate"]Tags
transformers safetensors higgs_multimodal_qwen3 text-generation text-to-speech speech-generation voice-agent expressive-speech
// relacionados
Leia também
Editorial
LTX-2: o primeiro modelo fundacional de vídeo e áudio em conjunto — aberto, com 19B de parâmetros
Blog
How Reliable Is Your Jailbreak Judge? Calibration and Adversarial Robustness of Automated ASR Scoring
Blog
Graph-Based Phonetic Error Correction of Noisy ASR
Blog