Modelo Áudio & Voz LLMs & Texto

bosonai/higgs-tts-3-4b

Modelo de síntese de voz · 4 B de parâmetros — 87.7 mil downloads e 546 curtidas no Hugging Face.

Hugging Face · Modelos ·bosonai · 25 de janeiro de 2026 ·↓ 87740 ·♥ 546

O modelo bosonai/higgs-tts-3-4b aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de síntese de voz.

Ficha técnica

Tarefa: síntese de voz
Parâmetros: 4 B
Biblioteca: transformers
Formatos: safetensors
Licença: proprietária / outra
Downloads: 87.7 mil · Curtidas: 546

Hardware recomendado

Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).

Precisão original (16-bit): ~9.6 GB de VRAM — 1 GPU de consumo (12 GB, ex. RTX 3060/4070)
Quantizado 8-bit: ~4.8 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)
Quantizado 4-bit: ~2.4 GB de VRAM — 1 GPU de consumo (≥ 8 GB, ex. RTX 3060)

Como rodar localmente

Sintetize voz/áudio com a transformers (alguns modelos exigem o código do autor — confira o card):

pip install -U transformers torch

from transformers import pipeline

tts = pipeline("text-to-speech", model="bosonai/higgs-tts-3-4b", device=0)
out = tts("Olá! Esta é uma voz sintética.")
# out["audio"], out["sampling_rate"]

bosonai/higgs-tts-3-4b

Ficha técnica

Hardware recomendado

Como rodar localmente

Tags

Leia também

LTX-2: o primeiro modelo fundacional de vídeo e áudio em conjunto — aberto, com 19B de parâmetros

How Reliable Is Your Jailbreak Judge? Calibration and Adversarial Robustness of Automated ASR Scoring

Graph-Based Phonetic Error Correction of Noisy ASR

Noise-Aware Boundary-Enhanced Generative Learning for Ultrasound Speckle Reduction