bosonai/higgs-tts-3-4b

Modelo de síntese de voz · 4 B de parâmetros — 87.7 mil downloads e 546 curtidas no Hugging Face.

Hugging Face · Modelos ·bosonai · ·↓ 87740 ·♥ 546

O modelo bosonai/higgs-tts-3-4b aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de síntese de voz.

Ficha técnica

  • Tarefa: síntese de voz
  • Parâmetros: 4 B
  • Biblioteca: transformers
  • Formatos: safetensors
  • Licença: proprietária / outra
  • Downloads: 87.7 mil · Curtidas: 546

Hardware recomendado

Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).

  • Precisão original (16-bit): ~9.6 GB de VRAM — 1 GPU de consumo (12 GB, ex. RTX 3060/4070)
  • Quantizado 8-bit: ~4.8 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)
  • Quantizado 4-bit: ~2.4 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)

Como rodar localmente

Sintetize voz/áudio com a transformers (alguns modelos exigem o código do autor — confira o card):

pip install -U transformers torch

from transformers import pipeline

tts = pipeline("text-to-speech", model="bosonai/higgs-tts-3-4b", device=0)
out = tts("Olá! Esta é uma voz sintética.")
# out["audio"], out["sampling_rate"]

Tags

transformers safetensors higgs_multimodal_qwen3 text-generation text-to-speech speech-generation voice-agent expressive-speech

Abrir o modelo no Hugging Face →

compartilhar: