TADA: o modelo de síntese de voz que elimina alucinações por design — e é 11 vezes mais rápido
A Hume AI lança o TADA (Text-Acoustic Dual Alignment), modelo TTS open-source com alinhamento 1:1 entre tokens de texto e voz — uma escolha arquitetural que torna fisicamente impossível omitir ou adicionar palavras, e produz áudio em tempo real.
Alucinação em sistemas de síntese de voz é um problema mais sério do que parece. Quando um modelo TTS pula palavras, insere sílabas extras ou inverte a ordem de termos num texto, o resultado é conteúdo de áudio incorreto — e os erros são difíceis de detectar automaticamente, porque o áudio soa natural. Em aplicações de audiobooks, dublagem automatizada, assistentes por voz e comunicações legais, um TTS que inventa ou omite palavras é um risco concreto.
O TADA (Text-Acoustic Dual Alignment), publicado pela Hume AI em março de 2026, resolve esse problema de uma forma que merece atenção: em vez de tentar reduzir alucinações por treinamento e pós-processamento, a arquitetura as torna estruturalmente impossíveis. O alinhamento 1:1 entre tokens de texto e vetores de fala significa que cada palavra do input tem exatamente uma posição de saída — não há como pular ou adicionar conteúdo sem quebrar o mecanismo de geração.
O que é Text-Acoustic Dual Alignment
Modelos de TTS convencionais aprendem a mapear texto para áudio de forma flexível: uma palavra pode gerar poucos ou muitos frames de áudio dependendo da entonação, e o modelo decide isso durante a inferência. Essa flexibilidade permite prosódia natural, mas cria uma lacuna entre a representação do texto e a do áudio — uma lacuna que, em casos de distribuição fora do treinamento, pode resultar em deleções ou inserções.
O TADA elimina essa lacuna com um princípio simples: cada token de texto corresponde exatamente a um vetor de fala (speech vector). O modelo não decide quantos frames de áudio cada palavra ocupa — a correspondência é um-para-um, determinada pela tokenização. Texto e áudio avançam em lock-step: um token de texto, um vetor de fala, simultaneamente, em um único stream autoregress ivo.
Isso é o que o paper chama de "Dual Alignment" — alinhamento duplo: a sequência de texto e a sequência de áudio são geradas como partes do mesmo processo autorregressivo, não como estágios separados. A head de geração de áudio usa flow matching condicionado no estado oculto do LLM naquele token, o que preserva contexto semântico enquanto garante o alinhamento posicional.
Zero alucinações em 1000+ amostras — e por quê isso é diferente
Em testes com mais de 1.000 amostras do LibriTTSR (dataset de referência para TTS em inglês), o TADA registrou zero alucinações de conteúdo. O número impressiona, mas o mais importante é que ele não é produto de treinamento mais cuidadoso ou de filtros de pós-processamento — é uma consequência direta da arquitetura. Se o mecanismo de alinhamento funciona, não há como o modelo omitir ou adicionar tokens: a estrutura impede.
A distinção é fundamental para sistemas críticos. Reduzir alucinações por treinamento é uma luta contínua: à medida que o modelo encontra inputs fora da distribuição, os erros retornam. Uma propriedade arquitetural é mais robusta: vale para qualquer input que o tokenizador consegue processar.
- RTF (Real-Time Factor): 0,09 — gera 1 segundo de áudio a cada 0,09s de processamento (11× mais rápido que tempo real)
- Alucinações de conteúdo: zero em 1.000+ amostras (LibriTTSR)
- Speaker similarity: 4,18/5,0 (EARS dataset)
- MOS (naturalidade): 3,78/5,0 (EARS dataset)
- Contexto: 2.048 tokens → ~700 segundos de áudio
- Idiomas (TADA-3B-ML): 10 — português, inglês, árabe, chinês, alemão, espanhol, francês, italiano, japonês, polonês
- Licença: código MIT; pesos sob Llama 3.2 Community License
- Código e pesos: HuggingFace (HumeAI/tada-1b) e GitHub
Velocidade: RTF de 0,09 na prática
RTF — Real-Time Factor — mede quanto tempo o modelo leva para gerar um segundo de áudio. RTF de 1,0 significa que o modelo gera em tempo real; RTF de 0,5 significa que gera o dobro da velocidade real; RTF de 0,09 significa que gera 11 vezes mais rápido que o tempo real. Com uma GPU H100, prompts com cache e model.compile(), o TADA atinge RTF de 0,12 em condições de produção.
Para colocar em contexto: um audiobook de 10 horas é gerado em menos de 55 minutos com RTF 0,09. Uma chamada de voz interativa com latência de centenas de milissegundos se torna viável — o áudio de resposta começa a ser gerado muito antes do que o usuário percebe como "tempo de espera".
A velocidade emerge diretamente do design de dual alignment. Como não há etapa separada de predição de duração (o modelo não precisa decidir "quantos frames para essa palavra?") nem de decodificação de fala separada do texto, o pipeline é mais curto. Cada passo do processo autorregressivo produz simultaneamente o próximo token de texto e o próximo vetor de fala.
Dois modelos, dez idiomas, um framework
O TADA foi lançado em duas variantes. O TADA-1B usa o Llama 3.2 de 1 bilhão de parâmetros como base e suporta apenas inglês — voltado para aplicações de baixa latência onde o modelo precisa rodar em hardware restrito. O TADA-3B-ML usa o Llama 3.2 de 3 bilhões e adiciona suporte multilíngue: inglês, português, árabe, chinês, alemão, espanhol, francês, italiano, japonês e polonês.
A inclusão do português na variante multilíngue é relevante para o ecossistema local de desenvolvedores de voz. A maioria dos TTS open-source de qualidade ainda é centrada em inglês, com suporte a outros idiomas adicionado como afterthought. O TADA-3B-ML inclui português no conjunto de idiomas de primeira classe desde o treinamento.
Text-only guidance: o truque para qualidade multimodal
Um desafio em modelos que geram texto e áudio juntos é o que pesquisadores chamam de modality gap: a distribuição de representações internas para texto e para áudio pode ser incompatível, o que prejudica a qualidade de qualquer uma das modalidades. O TADA endereça isso com text-only guidance: durante a inferência, o modelo blenda os logits (saídas antes do softmax) de dois modos — um que vê texto e áudio juntos, e outro que vê apenas texto. O blend é calibrado para que o áudio gerado permaneça fiel ao conteúdo textual.
A técnica é análoga ao classifier-free guidance em modelos de difusão de imagem, onde a geração sem condicionamento e com condicionamento são blendadas para aumentar a fidelidade ao prompt. No TADA, o "condicionamento" é o texto — e a guidance reforça o alinhamento textual sem sacrificar a naturalidade do áudio.
O que o TADA não resolve
Naturalidade de fala é um problema diferente de fidelidade de conteúdo. O MOS de 3,78/5,0 indica que o TADA produz fala natural para a maioria dos propósitos, mas não atinge o teto de qualidade de sistemas comerciais como o ElevenLabs ou o Bark Fine-Tuned, que investiram anos em dados de prosódia e emoção. Para aplicações que exigem fala altamente expressiva — audiobooks com narrador dramático, voz de personagem para jogos —, o TADA pode soar relativamente plano.
A janela de contexto de 2.048 tokens, que equivale a aproximadamente 700 segundos de áudio, também impõe um limite para sessões muito longas de clonagem de voz. Manter a consistência de timbre e prosódia ao longo de uma hora de conteúdo ainda exige segmentação e ajuste manual.
Perguntas Frequentes
Como funciona a clonagem de voz no TADA?
O TADA usa um encoder-aligner de áudio para processar um clip de voz de referência e extrair características do falante — timbre, ritmo, sotaque. Essas características condicionam a geração de voz para o texto de entrada, produzindo áudio que soa como o falante de referência. O processo funciona com clips curtos de referência (alguns segundos), o que o torna prático sem exigir gravações longas.
A licença MIT do código cobre os pesos do modelo?
Não completamente. O código do TADA está sob licença MIT, permitindo uso, modificação e distribuição irrestrita. Os pesos do modelo, porém, são baseados no Llama 3.2 e estão sujeitos à Llama 3.2 Community License — que permite uso comercial para a maioria das empresas, mas impõe restrições específicas sobre redistribuição e uso para treinar outros modelos. Antes de usar os pesos em produção, vale verificar se seu caso de uso está dentro dos termos da Llama 3.2 Community License.
O que é flow matching na arquitetura do TADA?
Flow matching é uma alternativa à difusão para modelar distribuições contínuas. Em vez de aprender a reverter ruído gaussiano (como na difusão), o modelo aprende a transformar uma distribuição simples (como gaussiana) diretamente na distribuição alvo (o áudio) via fluxo determinístico. Na prática, permite geração de alta qualidade com menos passos de iteração que a difusão — o que contribui para o RTF baixo do TADA. O paper usa 20 passos de flow matching por padrão, mas reduzir para 10 acelera a geração em ~1,3× com impacto mínimo na qualidade.
O TADA funciona para síntese de voz em tempo real (streaming)?
Sim. Com RTF de 0,09, o modelo gera áudio muito mais rápido do que ele pode ser reproduzido, o que permite streaming de áudio enquanto a geração continua. Isso é viável em assistentes de voz interativos onde o usuário começa a ouvir a resposta antes de toda a frase ser gerada. O alinhamento 1:1 token-por-token facilita o streaming porque o áudio pode ser emitido conforme cada token é processado, sem esperar pelo final da sequência.