Editorial Áudio & Voz

Canary-Qwen: a fórmula da NVIDIA que reescreveu o topo da transcrição de voz aberta

Com 2,5 bilhões de parâmetros e uma taxa de erro de palavras de 5,63%, o Canary-Qwen da NVIDIA chegou ao topo do Open ASR Leaderboard e virou modelo a copiar — mesmo que o primeiro lugar, como sempre, já tenha trocado de dono.

Ponto Zero · 03 de janeiro de 2026

Ranking de leaderboard é território instável. Um modelo sobe, tira uma foto no topo, e semanas depois já foi ultrapassado por outro nome que ninguém tinha ouvido falar. O caso do Canary-Qwen-2.5B, da NVIDIA, é um retrato quase perfeito desse ciclo: quando chegou à primeira posição do Open ASR Leaderboard — o painel público da Hugging Face que compara sistemas de transcrição automática de fala —, o modelo trouxe a taxa de erro de palavras (WER, sigla em inglês para word error rate, a métrica-padrão que mede quantas palavras uma transcrição erra em relação ao texto real) para 5,63%. Foi, na época, o menor número já registrado por um sistema aberto no painel.

O detalhe que interessa não é só o número — é a receita por trás dele. Porque essa receita virou o padrão que outros times passaram a seguir, mesmo depois que o Canary-Qwen deixou de ser o primeiro colocado.

O que exatamente subiu ao topo

ASR é a sigla para automatic speech recognition, reconhecimento automático de fala: a tarefa de converter áudio em texto. O Open ASR Leaderboard, mantido pela equipe de áudio da Hugging Face, testa dezenas de modelos — abertos e fechados — em um conjunto de bancos de dados de referência (entre eles LibriSpeech e outras coleções de fala em inglês) e calcula a média de erro em cada um. Hoje o painel já lista mais de 80 modelos, a maioria de código aberto.

O Canary-Qwen-2.5B foi treinado com 234 mil horas de áudio público em inglês — podcasts, vídeos do YouTube, audiolivros — e roda a 418 RTFx, ou seja, processa áudio 418 vezes mais rápido do que a duração real da gravação. É rápido o bastante para transcrever uma reunião inteira em segundos.

      5,63% de WER (taxa de erro de palavras) no Open ASR Leaderboard, o menor índice do modelo desde o lançamento
2,5 bilhões de parâmetros — pequeno para os padrões de modelos de linguagem, mas competitivo com sistemas bem maiores
234 mil horas de áudio em inglês usadas no treinamento, vindas de 26 conjuntos de dados públicos
418 RTFx de velocidade — 418x mais rápido que tempo real
Licença CC-BY-4.0, liberada para uso comercial

    

Como funciona a combinação que virou padrão

O nome já entrega a estratégia: "Canary" é a família de modelos de transcrição da NVIDIA, e "Qwen" é o modelo de linguagem da Alibaba usado como base. O Canary-Qwen-2.5B é o que a NVIDIA chama de SALM — speech-augmented language model, ou modelo de linguagem aumentado por fala. Em vez de treinar um sistema de ponta a ponta do zero, a equipe acoplou um encoder de áudio (a parte que "ouve" e extrai padrões do som, chamado FastConformer) a um LLM (sigla para large language model, modelo de linguagem de grande porte) já pronto, o Qwen3-1,7B.

A conexão entre as duas partes usa uma projeção linear e LoRA (uma técnica de ajuste fino que modifica só uma fração pequena dos parâmetros do modelo, em vez de retreinar tudo). O resultado tem dois modos de operação: um modo ASR, que só transcreve, e um modo LLM, em que o próprio modelo consegue resumir a transcrição ou responder perguntas sobre o conteúdo do áudio. Não é apenas transcrever — é entender o que foi dito.

Por que essa arquitetura ficou popular

Juntar um encoder de fala especializado a um LLM genérico resolve um problema prático: treinar um sistema de reconhecimento de voz do zero é caro, mas ajustar um encoder pequeno para conversar com um LLM já treinado é muito mais barato. Uma revisão publicada em 2026 sobre o próprio Open ASR Leaderboard aponta que modelos que combinam encoders Conformer com decodificadores baseados em LLM — categoria que inclui o Canary-Qwen e também o Granite-Speech-3.3-8B, da IBM — dominam a ponta do ranking em inglês.

É esse padrão arquitetural, mais do que o modelo específico, que se tornou a lição da temporada: se você quer competir pelo topo do leaderboard de transcrição em 2026, a aposta mais segura não é mais construir um sistema de ponta a ponta — é reaproveitar um LLM já afiado e conectar um bom ouvido a ele.

O pódio já mudou — e isso é o ponto

Vale ser direto sobre uma coisa: o primeiro lugar não é uma coroa permanente. Levantamentos recentes do próprio painel mostram modelos como o ARK-ASR-3B, da AutoArk-AI, e o MOSS-Transcribe-preview-2B, da OpenMOSS, com WER abaixo de 5%, além do cohere-transcribe-03-2026, da Cohere, todos superando a marca que o Canary-Qwen havia estabelecido. Isso não desmente o mérito do modelo da NVIDIA — só confirma que leaderboard aberto é fotografia, não retrato definitivo. A métrica muda de posição a cada poucos meses, e o que hoje é recorde vira ponto de comparação amanhã.

O que fica é o padrão de projeto que o Canary-Qwen ajudou a consolidar, não o número específico de WER que ele carimbou em julho do ano passado.

O contexto mais amplo: voz aberta ganhando corpo em 2026

O interesse por reconhecimento de voz aberto não vive isolado — ele acompanha um movimento maior em torno de sistemas de fala abertos ganhando terreno em 2026. Em março, a Mistral lançou o Voxtral TTS (sigla para text-to-speech, conversão de texto em voz), um modelo de 4 bilhões de parâmetros com pesos abertos que fala 9 idiomas — inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe —, com latência de apenas 70 milissegundos para gerar o primeiro trecho de áudio.

Na mesma linha, o dataset google/WaxalNLP, lançado pelo Google em parceria com universidades africanas, reúne cerca de 1.250 horas de fala transcrita e 235 horas de gravações de voz única para treinar sistemas de ASR e TTS em mais de vinte idiomas africanos, entre eles amárico, iorubá e suaíli — línguas faladas por mais de 100 milhões de pessoas e historicamente ausentes dos grandes conjuntos de treinamento. O dataset já acumula mais de 32 mil downloads na Hugging Face, sinal de que a demanda por voz de qualidade fora do eixo inglês-europeu é real.

Juntos, os três episódios desenham o mesmo recado: o avanço em voz de 2026 não é só "modelo maior vence" — é arquitetura combinada, dados abertos em mais idiomas, e velocidade suficiente para caber em produtos do dia a dia.

Limites que valem a pena lembrar

O Canary-Qwen-2.5B transcreve só inglês. Ele não resolve, sozinho, o problema de reconhecimento de voz em português ou em qualquer outro idioma — para isso, é a combinação de datasets como o WaxalNLP com arquiteturas parecidas que deve fazer a diferença nos próximos ranques regionais. Além disso, um WER baixo em bancos de dados de referência não garante desempenho igual em áudio ruidoso, sotaques fora da curva ou gravações de baixa qualidade — o tipo de situação que separa uma demonstração de leaderboard de um produto usado em call center ou reunião real.

A régua que os benchmarks aplicam também tem limite: é uma média entre datasets específicos, não um veredito universal sobre "qual modelo transcreve melhor" em qualquer contexto.

Perguntas Frequentes

O que é WER e por que essa métrica importa tanto?

WER (word error rate, taxa de erro de palavras) mede a proporção de palavras que um sistema de transcrição erra — troca, apaga ou inventa — em relação ao texto correto de referência. Quanto menor o número, mais fiel é a transcrição. Um WER de 5,63% significa, em termos simples, que a cada cem palavras faladas, cerca de cinco e meia saem erradas na transcrição final.

O Canary-Qwen ainda é o modelo aberto mais preciso do Open ASR Leaderboard?

Não com exclusividade. Modelos mais recentes, como o ARK-ASR-3B e o MOSS-Transcribe-preview-2B, já registram WER abaixo do que o Canary-Qwen alcançou. O modelo da NVIDIA continua relevante como referência de arquitetura e como opção madura e licenciada para uso comercial, mas o topo do ranking, por natureza, se move constantemente.

O que significa "SALM", o tipo de arquitetura do Canary-Qwen?

SALM é a sigla para speech-augmented language model, modelo de linguagem aumentado por fala. Em vez de treinar um sistema único do zero para ouvir e escrever, a arquitetura conecta um encoder de áudio especializado a um modelo de linguagem já pronto, permitindo que o sistema não só transcreva, mas também resuma ou responda perguntas sobre o que foi dito.

Dá para usar esse tipo de modelo em português ou outros idiomas?

Não diretamente — o Canary-Qwen-2.5B foi treinado só com áudio em inglês. Mas a mesma combinação de encoder de fala com LLM pode, em tese, ser replicada para outros idiomas, e é exatamente aí que conjuntos de dados abertos como o WaxalNLP entram: fornecendo o áudio necessário para treinar versões regionais dessa receita.

O que o Canary-Qwen deixa como legado não é o número que carimbou no topo do ranking por alguns meses — é a demonstração de que, em voz aberta, a combinação inteligente de peças já existentes vale mais do que reconstruir tudo do zero. Essa é a corrida que continua em 2026, com nomes novos subindo ao pódio a cada atualização do painel.

// relacionados