ICML 2026 | 合成数据也能训出 SOTA 低资源 TTS

2026/6/26 17:46:48

逻辑智能团队关于低资源语言 TTS 的研究论文被机器学习顶级会议 ICML 2026 接收。该工作证明，即使真实语音数据稀缺，合成数据也能训练出稳定、自然、可克隆的语音模型。

项目	信息
论文标题	Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models
项目名称	SE-Bridge-TTS
会议	ICML 2026
论文领域	Spoken Language Models · Low-Resource TTS · Preference Alignment · Zero-Shot Voice Cloning
论文链接	https://arxiv.org/abs/2605.27383
项目主页	https://insiderx-pro.github.io/SE-Bridge-TTS/
官方仓库	https://github.com/InsiderX-Pro/SE-Bridge-TTS
模型权重	https://huggingface.co/isabeth/SE-Bridge-TTS
开源地址	https://github.com/InsiderX-Pro/video-translator
体验官网	https://luoji.cn/

⏩摘要

SE-Bridge-TTS 是一套面向低资源语言的语音合成方案，核心能力是：在真实语音数据稀缺的情况下，仍然生成稳定、自然、可克隆的多语言语音，可用于博客配音、视频翻译配音、跨语言内容本地化、数字人、语音助手和小语种内容生产。

体验免费配音，官网：https://luoji.cn/

开源项目 Video Translator：面向 AI 编程助手和 Agent 工作流，支持通过 Skill 方式快速接入，方便开发者在现有工具链中一键安装和使用，也可参考其实现扩展到更多国内外 AI 编程工具。

项目地址：https://github.com/InsiderX-Pro/video-translator

语音大模型（Spoken Language Models, SLMs）正在成为文本转语音、实时语音交互和跨语言语音生成的重要技术路线。相比传统 TTS 依赖 G2P、词典和发音规则，SLM 可以直接建模离散语音 token，从而降低低资源语言上的工程门槛。

但在泰语、老挝语等低资源语言上，真实标注语音仍然稀缺。合成数据看似是最直接的扩容方案：它能补足文本-语音配对，让模型更稳定地“读对”。问题在于，过量、平坦的合成语音会压缩输出分布，使模型逐渐失去自然韵律、说话节奏和说话人相似度。

SE-Bridge-TTS 的核心贡献，是把这一矛盾明确为 Stability-Expressivity Gap，并提出 DGSA 与TDSC两条路径：前者面向仍有一定真实语音锚点的语言，利用韵律-音色解耦构造偏好对；后者面向真实语音极少的语言，通过多温度采样、自动过滤和迭代偏好学习让模型自我修正。

除论文原始实验外，官方仓库还新增了 FLEURS Lao/Thai 多语言提示评测和公开权重。在与Higgs Audio v3、OmniVoice、X-Voice Stage1 等近期开放多语言 TTS 系统对比中，SE-Bridge-TTS 在 Lao/Thai 目标语言上保持了强稳定性和竞争性的说话人相似度。

⏩1 背景：多语言 TTS 的主流趋势，和低资源语言的真实缺口

近一年，多语言 TTS 正在成为语音生成领域的主流方向。新的系统不断出现，目标也越来越统一：支持更多语言、更多说话人、更强跨语言提示合成，以及 0-shot voice cloning。

但“支持某个语言”和“能在这个语言上稳定、自然、像目标说话人一样生成语音”并不是同一件事。以泰语和老挝语为例，泰语有 5 个声调并存在复杂声调变化；老挝语公开高质量语音资源更少，通用系统即使能生成，也未必能稳定进行 0-shot voice cloning。

SE-Bridge-TTS 没有从头训练一个更大的多语言基础模型，而是基于已有开源底座 CosyVoice2，从数据层面重新拆解低资源 TTS 的训练问题：真实语音稀缺时，合成数据如何使用？合成数据是否越多越好？当发音稳定性和语音表现力发生冲突时，训练流程应该如何修正？

⏩2 核心发现：合成数据不是越多越好

论文最重要的发现，是合成数据比例与语音质量之间存在非单调关系。研究团队固定 300 小时真实泰语语音，并将合成语音从 10 小时逐步增加到 1,500 小时，对应合成比例 α 从 3% 到 100%。

图1：合成数据比例变化下的稳定性与表现力指标曲线（第二稿截图）

图2：泰语合成数据 scaling

两阶段趋势很清楚：当α ≤ 50% 时，合成数据同时提升稳定性与表现力，WER 从 75.0% 降到 47.0%，NMOS 从 3.82 提升到 4.51，SMOS 从 4.31 提升到 4.63；当 α > 50% 后，稳定性继续改善，但表现力开始坍缩。α = 80% 时 WER 进一步降到 38.9%，但 NMOS 降至 3.61、SMOS 降至 3.54、重复率升至 6.51%。到 100% 纯合成训练时，WER 达到 36.2%，但 NMOS 只有 3.08，重复率升至 9.83%。

这就是论文命名的 Synthetic Erosion：低熵、平坦的合成语音分布逐渐侵蚀模型原本从预训练骨干中继承的表现力。低资源 TTS 的关键，不只是继续堆合成数据，而是在高合成比例下重新恢复真实语音中的韵律变化。

图3：稳定性-表现力权衡空间（第二稿截图）

⏩3 方法一：DGSA，用解耦结构自动构造偏好对

DGSA（Disentanglement-Guided Self-Alignment）适用于目标语言仍有一定真实语音可用的低资源场景。它利用 Flow-Matching SLM 中“韵律”和“音色”在结构上的可分离性：Text-Speech LM 更负责内容与韵律相关的离散 token，Flow-Matching Transformer 则通过参考语音提取音色 embedding，负责保持说话人身份。

图4：DGSA 方法结构原图

DGSA 对同一段文本和同一参考说话人生成两类互补输出：打开 style token，得到更有表现力的输出 y_expr，但它可能带来发音错误；关闭 style token，得到更稳定但更平坦的输出 y_stab。真实语音 y_real 同时具备稳定性和表现力，因此可以作为偏好对齐中的正样本。

这使模型不需要额外人工标注，就能学习“什么样的输出既发音稳定，又保留自然韵律和说话人身份”。同时，DGSA 使用双目标 DPO 和动态权重调度：α ≤ 50% 时主要维持稳定性训练；当 α 超过临界点后，表现力目标逐步被激活。

图6：DGSA 消融结果（α = 80% 高合成比例设置）

在α = 80% 的高合成比例设置下，标准 DPO 虽然提升表现力，但 WER 恶化到 45.2%；DGSA 则保持 SFT baseline 的 38.9% WER，同时将重复率从 6.51% 降到 2.82%，NMOS 从 3.61 提升到 4.42，SMOS 从 3.54 提升到 4.53。

⏩4 方法二：TDSC，没有真实语音锚点时让模型自我批判

老挝语代表更困难的极低资源设定：真实高质量目标语言语音锚点非常有限，DGSA 难以稳定依赖 y_real 来构造偏好正样本。TDSC（Temperature-Driven Self-Critique）通过多温度采样、ASR 过滤和迭代偏好学习，让模型在纯合成训练下逐步自我修正。

图7：TDSC 方法结构原图

TDSC 对每个输入文本使用低、中、高三个温度区间生成候选语音：低温度更保守、发音更稳但韵律可能平；中温度提供稳定性和表现力较均衡的候选；高温度更有探索性、韵律更丰富但错误风险更高。随后，Judge 模块基于 WER、长度和重复率过滤候选，通过的样本进入 accepted set，错误更高但仍满足基础约束的样本进入 rejected set。

训练循环分两步：先用 accepted samples 做 SFT，让模型稳定生成；再用 accepted/rejected pairs 做 DPO，让模型学会区分好坏候选，抑制幻觉、重复和错误发音。随着迭代推进，系统逐步扩大高温采样上限，让模型先建立稳定性，再恢复韵律探索空间。

图9：TDSC 五轮迭代中的 WER、韵律熵和过滤通过率变化

图11：TDSC 消融结果

老挝语实验中，TDSC 从纯合成 SFT baseline 出发，将 WER 从 38.5% 降到 29.8%，重复率从 7.62% 降到 4.15%，NMOS 从 3.12 提升到 3.94。这说明 TDSC 不是简单的推理时筛选，而是通过闭环训练改变模型策略本身。

⏩5 实验结果：标准 TTS、0-shot 克隆与 FLEURS 多语言提示评测

5.1标准 TTS：DGSA / TDSC 与开源、商业系统对比

图 12：泰语与老挝语低资源TTS 性能对比：

我们的方法在发音准确性与语音自然度上整体优于开源及商业系统

标准 TTS 任务中，DGSA 在泰语上取得 4.51 NMOS，高于 ElevenLabs-v3、Gemini、Azure 和多个开源系统；TDSC 在老挝语上取得 29.8% WER 和 4.53 NMOS，优于 Gemini Flash、Gemini Pro、Azure 和 MMS-TTS。

5.20-shot voice cloning：泰语超过商业系统，老挝语实现可用克隆

图 13：0-shot voice cloning 系统对比原始表格截图（第二稿截图）

0-shot voice cloning 任务中，泰语 DGSA 的 WER 为 38.9%，SIM 为 0.84，均优于 ElevenLabs-v3 的 42.3% WER 和 0.78 SIM。老挝语更特殊：对比系统不支持老挝语 0-shot 克隆，而 TDSC 在纯合成训练条件下实现了可用的说话人克隆能力。

5.3FLEURS Lao/Thai 多语言提示评测：与近期开放多语言 TTS 系统对比

官方仓库新增了一个可复现的 FLEURS Lao/Thai benchmark，用于比较 SE-Bridge-TTS 与近期开放多语言 TTS 系统，包括 Higgs Audio v3、OmniVoice 和 X-Voice Stage1。评测时间为 2026-06-11，协议覆盖 255 组 Lao/Thai paired target sentences，并使用 Lao、Thai、Chinese、English 作为 reference prompt language。

最紧凑的主结果，是 Chinese/English prompt → Lao/Thai target 的跨语言提示合成设置。模型需要根据同样的 target_text、prompt_audio、prompt_text、target_language_id 和 prompt_language_id 生成语音。

实验数据表 6：FLEURS Lao/Thai benchmark 主结果

模型	支持样本	Accuracy ↑	Speaker similarity ↑
Higgs Audio v3	1020/1020	78.2%	0.520
OmniVoice	1020/1020	75.9%	0.645
SE-Bridge-TTS	1020/1020	83.4%	0.593
X-Voice Stage1	510/1020	53.7%	0.361

指标定义：calibrated CER = max(0, generated CER - ground-truth CER)；Accuracy = 1 - calibrated CER。

含义：评测先扣除 ASR 在原始 FLEURS target audio 上的识别误差，再衡量合成语音额外带来的退化，以减少识别器本身对低资源语言不完美造成的偏差。

从结果看，SE-Bridge-TTS 在跨语言 prompt 到 Lao/Thai target 的总体 accuracy 上达到 83.4%，高于 Higgs Audio v3 的 78.2%、OmniVoice 的 75.9% 和 X-Voice Stage1 的 53.7%。在 speaker similarity 上，SE-Bridge-TTS 为 0.593，仅低于 OmniVoice 的 0.645，明显高于 Higgs Audio v3 的 0.520 和 X-Voice Stage1 的 0.361。

覆盖率也很关键：X-Voice Stage1 在该评测中的 Lao 方向不支持，因此覆盖率为 510/1020；SE-Bridge-TTS 则完整覆盖 1020/1020。

⏩6 为什么这套方案值得复用

SE-Bridge-TTS 的价值不只是“某个指标更高”，而是它提供了一个低资源 TTS 可复用范式。第一，它把瓶颈放在数据分布，而不是单纯模型规模。对于低资源小语种，最难的问题往往不是模型完全不会生成语音，而是有限真实数据与大量合成数据之间存在分布冲突。

第二，它基于开源底座完成增强。项目公开的 Thai / Lao 权重是 CosyVoice2-compatible checkpoints，推理说明也直接围绕 CosyVoice2 展开。这降低了复现和迁移门槛，避免把方案绑定在不可控的闭源系统上。

第三，它同时覆盖两类低资源场景：DGSA 面向“有一定真实参考语音”的语言，解决高合成比例下的表现力恢复；TDSC 面向“真实语音锚点非常少”的语言，解决纯合成或近似纯合成训练下的自改进。

如果一个语言缺少大规模高质量录音，但可以获得基础文本、少量真实语音和可用 ASR，那么类似流程就有迁移空间：使用开源 TTS/SLM 底座作为初始化，用合成数据补足发音覆盖，监控合成比例带来的稳定性和表现力变化，在有真实参考时使用 DGSA 做偏好对齐，在真实语音不足时使用 TDSC 做多温度自批判和迭代筛选。