Editorial Áudio & Voz

O modelo de voz da NVIDIA que troca precisão por velocidade — de propósito

Com apenas 600 milhões de parâmetros, o Nemotron 3.5 ASR Streaming transcreve 40 variações de idioma palavra por palavra, à medida que a pessoa fala — e sustenta até 17 vezes mais conversas simultâneas que o modelo de streaming anterior da própria NVIDIA.

Ponto Zero · 04 de janeiro de 2026

Nem todo recorde em transcrição de voz é sobre errar menos palavras. Às vezes é sobre não fazer a pessoa esperar. O Nemotron 3.5 ASR Streaming, lançado pela NVIDIA no início de junho de 2026, parte exatamente dessa premissa: um modelo pequeno, de 600 milhões de parâmetros, otimizado não para o menor erro possível, mas para transcrever em tempo real — palavra por palavra, à medida que alguém fala — em 40 variações de idioma.

É um contraste direto com o próprio catálogo da NVIDIA. Semanas antes, o Canary-Qwen-2.5B da mesma empresa havia liderado o Open ASR Leaderboard com taxa de erro de 5,63% — mas processando áudio em lote, depois de gravado, sem pressão de latência. O Nemotron 3.5 ASR Streaming resolve o problema oposto: legendas ao vivo, assistentes de voz, transcrição de reunião em tempo real — qualquer cenário em que o texto precisa aparecer enquanto a pessoa ainda está falando, não segundos depois.

O que "streaming com cache" quer dizer

Sistemas de transcrição em tempo real mais antigos costumam usar uma janela deslizante: processam um pedaço de áudio, avançam a janela, reprocessam parte do trecho anterior para manter contexto. Funciona, mas desperdiça computação recalculando o que já foi calculado.

O Nemotron 3.5 ASR Streaming usa uma arquitetura "ciente de cache" — um FastConformer de 24 camadas acoplado a um decodificador RNNT — que processa pequenos blocos de áudio sem essa recomputação redundante. Um vetor de 128 dimensões identificando o idioma é combinado ao processamento, permitindo que um único modelo transcreva 40 variações linguísticas diferentes sem precisar de um checkpoint separado para cada idioma. Dessas 40, 19 já estão prontas para transcrição direta, 13 têm cobertura ampla, e 8 exigem ajuste fino adicional antes de uso em produção.

milhões de parâmetros — cerca de metade do tamanho do Parakeet-RNNT-1.1B
variações de idioma cobertas por um único checkpoint
4,11% / 5,48% / 7,91% de erro de palavra em espanhol / português / inglês (FLEURS, bloco de 1,12s)
conversas simultâneas por GPU H100 a 80ms de latência — 17 vezes mais que o Parakeet-RNNT-1.1B
400 conversas simultâneas a 1.120ms de latência — 6 vezes mais que o mesmo modelo de referência

    

Os números que interessam a quem constrói produto

No FLEURS, banco de dados multilíngue de referência, o modelo registra taxa de erro de 4,11% em espanhol, 4,25% em italiano, 5,48% em português, 7,91% em inglês, 9,03% em francês e 8,31% em alemão — com uma média de 8,84% nas 19 variações de idioma já prontas para uso direto. São números competitivos, ainda que não no nível do Canary-Qwen (que mira precisão máxima, não velocidade).

Onde o modelo realmente se destaca é em capacidade de atendimento simultâneo. Numa única GPU H100, ele sustenta 240 fluxos de áudio concorrentes com latência de 80 milissegundos — dezessete vezes mais que os 14 fluxos que o Parakeet-RNNT-1.1B, modelo de streaming anterior da própria NVIDIA, consegue sustentar na mesma configuração, apesar de o Nemotron ser aproximadamente metade do tamanho. Com uma janela de latência maior, de 1.120 milissegundos, o número sobe para 2.400 conversas simultâneas contra 400 do modelo anterior — um salto de seis vezes.

Por que esse ganho de eficiência importa

Para quem opera um produto de voz em escala — um call center com milhares de chamadas simultâneas, uma plataforma de legendagem ao vivo, um assistente de voz embarcado —, a pergunta relevante nunca é só "qual modelo transcreve melhor", é "quantas conversas por GPU eu consigo atender antes de precisar comprar mais hardware". Um modelo menor que atende 6 a 17 vezes mais fluxos simultâneos muda diretamente o custo de operação por conversa — mesmo aceitando uma taxa de erro um pouco mais alta que a de um modelo de lote otimizado para precisão máxima.

Limites e o que falta esclarecer

Vale registrar duas ressalvas. Primeiro, das 40 variações de idioma anunciadas, só 19 estão de fato prontas para uso direto em produção — as outras 21 têm cobertura parcial ou exigem ajuste fino, o que é bem diferente de "suporta 40 idiomas" em tom de anúncio. Segundo, fontes divergem sobre a licença exata do modelo: a ficha na Hugging Face indica OpenMDW-1.1 (a licença de modelo aberto da Linux Foundation), enquanto páginas de terceiros, incluindo documentação de parceiros de hospedagem, citam a "NVIDIA Open Model License" — vale conferir a licença diretamente no repositório antes de qualquer uso comercial.

Perguntas Frequentes

Qual a diferença entre o Nemotron 3.5 ASR Streaming e o Canary-Qwen-2.5B, ambos da NVIDIA?

São otimizados para objetivos opostos. O Canary-Qwen-2.5B mira a menor taxa de erro possível, processando áudio já gravado, sem restrição de tempo real. O Nemotron 3.5 ASR Streaming sacrifica um pouco de precisão para transcrever em tempo real, com baixíssima latência e altíssima capacidade de atendimento simultâneo — voltado a aplicações ao vivo, não a transcrição em lote.

O modelo realmente transcreve 40 idiomas?

Com ressalva: das 40 variações de idioma cobertas pelo checkpoint, 19 já estão prontas para transcrição direta em produção, 13 têm cobertura ampla mas menos testada, e 8 exigem ajuste fino adicional antes de uso confiável.

Por que um modelo menor consegue atender mais conversas simultâneas?

Por causa da arquitetura "ciente de cache", que evita reprocessar trechos de áudio já analisados ao avançar a janela de streaming — ao contrário de abordagens mais antigas de janela deslizante, que recalculam parte do contexto a cada novo bloco de áudio.

O que é taxa de erro de palavras (WER) e como interpretar os números deste modelo?

WER mede a proporção de palavras que uma transcrição erra em relação ao texto correto. Um WER de 5,48% em português, por exemplo, significa que a cada cem palavras faladas, cerca de cinco e meia saem erradas — um resultado sólido para um modelo de 600 milhões de parâmetros otimizado para velocidade, ainda que acima da precisão de modelos maiores voltados a transcrição em lote.

O Nemotron 3.5 ASR Streaming não tenta vencer o Open ASR Leaderboard — tenta resolver um problema diferente e, para boa parte das aplicações de voz do dia a dia, mais relevante: fazer a transcrição aparecer na velocidade em que a conversa acontece, sem exigir uma GPU por usuário. Em voz, como em muita infraestrutura de IA, o modelo mais impressionante no papel nem sempre é o mais útil no produto.

// relacionados

O modelo de voz da NVIDIA que troca precisão por velocidade — de propósito

O que "streaming com cache" quer dizer

Os números que interessam a quem constrói produto

Por que esse ganho de eficiência importa

Limites e o que falta esclarecer

Perguntas Frequentes

Qual a diferença entre o Nemotron 3.5 ASR Streaming e o Canary-Qwen-2.5B, ambos da NVIDIA?

O modelo realmente transcreve 40 idiomas?

Por que um modelo menor consegue atender mais conversas simultâneas?

O que é taxa de erro de palavras (WER) e como interpretar os números deste modelo?

Leia também

Canary-Qwen: a fórmula da NVIDIA que reescreveu o topo da transcrição de voz aberta

Benchmark de Compreensão de Documentos de Escritório

DRL-CLBA: A Clean Label Backdoor Attack for Speech Classification via DDPG Reinforcement Learning

From Monolingual to Multilingual: Evaluating Mamba for ASR in South African Languages