Paper Áudio & Voz LLMs & Texto

Interleaved Speech Language Models Latently Work In Text

Interleaved speech-text language models exhibit an implicit transcription phase where text tokens become decodable in intermediate layers, followed by text-based prediction before…

Hugging Face · Daily Papers ·Talia Sternberg, Gallil Maimon · 21 de janeiro de 2026 ·▲ 10 upvotes

Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.

Autores: Talia Sternberg, Gallil Maimon, Yossi Adi

10 upvotes da comunidade
Temas: speech language models, speech-text interleaving, logit lens, intermediate layers, text token, speech recognition

Resumo

Resumo original (em inglês), extraído do paper:

Interleaved speech-text language models exhibit an implicit transcription phase where text tokens become decodable in intermediate layers, followed by text-based prediction before speech domain transformation.

Onde ler

Ver no Hugging Face

// relacionados

Interleaved Speech Language Models Latently Work In Text

Resumo

Onde ler

Leia também

Um modelo, muitas latências: limpar a voz sem escolher entre rápido e bom

KM-Speaker: Keypoint-Based Style Control for High-Quality Speech-Driven 3D Facial Animation and Dialogue Localization

Majority Vote Silences Minority Values: Annotator Disagreement at the Hate/Offensive Boundary in HateXplain

Conversational Domain Adaptation of IndicTrans2 across 21 Indic Languages via Experience Replay and Model Soups