LTX-2: o primeiro modelo fundacional de vídeo e áudio em conjunto — aberto, com 19B de parâmetros
O LTX-2 abandona a abordagem de gerar vídeo e áudio separadamente: um transformer de duplo fluxo aprende ambos ao mesmo tempo, produzindo conteúdo audiovisual sincronizado de ponta.
Gerar um vídeo com boa trilha sonora parecia um problema resolvido pela adição: primeiro o modelo gera o vídeo, depois outro modelo (ou o mesmo em modo separado) adiciona o áudio. O resultado é vídeo e som que coexistem mas não foram aprendidos juntos — e isso aparece nos detalhes. O foley soa ligeiramente deslocado. A música não respeita exatamente o ritmo do corte. A fala de um personagem chega meio quadro depois do movimento dos lábios.
O LTX-2, desenvolvido pela Lightricks e apresentado num paper com 183 upvotes no Hugging Face, propõe uma solução diferente: um único modelo que aprende vídeo e áudio ao mesmo tempo, num transformer de duplo fluxo com pesos compartilhados e atenção cruzada bidirecional entre as duas modalidades. Os pesos foram publicados integralmente sob licença aberta.
Dois fluxos, uma representação
A arquitetura do LTX-2 divide o processamento em dois fluxos assimétricos. O fluxo de vídeo tem 14 bilhões de parâmetros; o fluxo de áudio tem 5 bilhões. A assimetria reflete a diferença de complexidade entre as duas modalidades — vídeo carrega muito mais informação por segundo do que áudio, e o modelo precisa de capacidade proporcional para processar cada um.
O ponto arquitetural crítico são as camadas de atenção cruzada bidirecional entre os dois fluxos. Em vez de gerar vídeo e depois condicionar o áudio sobre ele (o que seria uma dependência unidirecional), os dois fluxos se influenciam mutuamente durante a síntese. O fluxo de áudio informa como o vídeo evolui; o fluxo de vídeo informa como o áudio se comporta. O resultado é coerência emergente — o modelo aprende a correlação audiovisual sem que ela precise ser explicitamente programada.
As incorporações posicionais temporais e o AdaLN (Adaptive Layer Normalization) sensível à modalidade garantem que o modelo saiba, a cada momento, onde está no tempo e com qual modalidade está trabalhando — condição necessária para sincronização frame-a-frame entre vídeo e áudio.
- Arquitetura: transformer de duplo fluxo — 14B parâmetros (vídeo) + 5B parâmetros (áudio) = 19B total
- Mecanismo chave: atenção cruzada áudio-vídeo bidirecional — os dois fluxos se influenciam mutuamente
- Capacidades: síntese conjunta de fala, áudio ambiente e elementos foley coerentes com o vídeo
- Performance: qualidade audiovisual de ponta entre modelos abertos, competitiva com sistemas proprietários
- Licença: open-source com todos os pesos e código públicos
- Referência: arxiv 2601.03233
O que o modelo gera — e como
A partir de um prompt de texto, o LTX-2 gera vídeo com três camadas de áudio integradas: fala (quando há personagens falando), áudio ambiente (o som de fundo coerente com o cenário — chuva numa floresta, tráfego numa cidade) e foley (efeitos sonoros sincronizados com ações — o som de passos, uma porta batendo, o impacto de um objeto).
Isso é diferente de gerar vídeo mudo e adicionar áudio de forma independente. A sincronização de foley em especial — efeitos ligados a ações físicas específicas no vídeo — requer que o modelo "saiba" quando uma ação acontece para posicionar o som corretamente. Num pipeline separado, isso exige um modelo de detecção de ação, um mapeamento ação-som e uma camada de sincronização. No LTX-2, esse alinhamento emerge do treinamento conjunto.
A geração pode ser condicionada só em texto, ou em texto mais imagem (usando a primeira imagem como âncora visual), seguindo o padrão que modelos como o Wan Video estabeleceram para controle de composição.
Por que "aberto" importa aqui
Geração de vídeo com áudio de qualidade é território dominado por sistemas proprietários — Sora, Veo 3, o gerador da Stability AI. Modelos abertos ficaram para trás especialmente no áudio: enquanto o vídeo gerado por modelos abertos como HunyuanVideo já é competitivo, o áudio integrado de qualidade permanecia atrás.
O LTX-2 muda isso. Com 19B de parâmetros, não é um modelo que roda em hardware de consumidor comum — uma GPU com 40–80 GB de VRAM é o mínimo prático. Mas pesquisadores, estúdios independentes e equipes com infraestrutura de nuvem podem agora trabalhar com um modelo audiovisual de ponta sem depender de API proprietária.
A disponibilidade do código de treinamento completo vai além dos pesos — permite que equipes adaptem o modelo para domínios específicos. Um estúdio de animação poderia fazer fine-tuning para seu estilo visual; um laboratório de ciências poderia especializar o modelo em visualizações científicas. Essa extensibilidade está fechada em sistemas proprietários.
O que o benchmark ainda não responde
O paper afirma que o LTX-2 alcança "qualidade audiovisual de última geração entre sistemas de código aberto" e "competitiva com modelos proprietários". Afirmações de SOTA em vídeo são notoriamente difíceis de verificar — as métricas automáticas existentes (FVD, CLIPSIM) medem aspectos específicos mas não capturam coerência audiovisual perceptual de forma confiável.
A avaliação mais honesta vai vir de comparações independentes da comunidade nas próximas semanas. Vídeos gerados lado a lado com Veo 3 e Sora, em prompts padronizados, vão revelar onde o LTX-2 iguala e onde ainda fica atrás. O histórico de modelos Lightricks (que inclui o LTX-1, forte em vídeo) sugere que o trabalho é sério — mas a afirmação de "competitivo com proprietários" merece teste empírico antes de ser aceita.
Perguntas Frequentes
O que é foley em produção de vídeo?
Foley é a técnica de criar e adicionar efeitos sonoros sincronizados com ações físicas em vídeo — passos, impactos, o som de tecidos, objetos sendo manuseados. Em produção profissional, artistas de foley gravam esses sons manualmente; em modelos generativos, é a camada de áudio mais difícil de sincronizar porque depende de compreender o que acontece no vídeo quadro a quadro.
Que GPU eu precisaria para rodar o LTX-2?
Com 19B de parâmetros, o modelo requer no mínimo uma GPU com 40 GB de VRAM (como a NVIDIA A100 ou H100) para rodar em precisão completa. Versões quantizadas podem reduzir esse requisito, mas com alguma perda de qualidade. É uma ferramenta de estúdio ou laboratório, não de laptop.
A atenção cruzada bidirecional é diferente de só concatenar os dois fluxos?
Sim, substancialmente. Concatenar fluxos e processar juntos cria uma sequência maior mas não cria canal explícito de comunicação entre modalidades — o modelo precisa "descobrir" a correlação indiretamente. Atenção cruzada bidirecional cria esse canal explicitamente: cada posição no fluxo de áudio pode atender diretamente a qualquer posição no fluxo de vídeo, e vice-versa.
Como o LTX-2 se compara ao LTX-1?
O LTX-1 (lançado em 2025) era um modelo focado em vídeo sem o componente de áudio integrado. O LTX-2 representa uma mudança arquitetural — não é um update do mesmo design, mas uma nova abordagem que incorpora áudio como modalidade de primeira classe no processo de geração.