【深度学习】【语音TTS】vits 论文,Variational Inference Text-to-Speech(1)
创始人
2024-11-14 11:33:53

代码:https://github.com/jaywalnut310/vits
论文:https://arxiv.org/abs/2106.06103

文章目录

    • 摘要
    • 1. 引言
    • 2. 方法
      • 2.1. 变分推理
        • 2.1.1. 概述
        • 2.1.2. 重构损失
        • 2.1.3. KL散度
      • 2.2. 对齐估计
        • 2.2.1. 单调对齐搜索
        • 2.2.2. 从文本预测时长
      • 2.3. 对抗训练
      • 2.4. 最终损失
      • 2.5. 模型架构
        • 2.5.1. 后验编码器
        • 2.5.2. 先验编码器
        • 2.5.3. 解码器
        • 2.5.4. 判别器
        • 2.5.5. 随机时长预测器
    • 3. 实验
      • 3.1. 数据集
      • 3.2. 预处理
      • 3.3. 训练
      • 3.4. 比较实验设置
    • 4. 结果
      • 4.1. 语音合成质量
      • 4.2. 多说话人文本到语音的泛化能力
      • 4.3. 语音变化
      • 4.4. 合成速度
    • 5. 相关工作
      • 5.1. 端到端文本到语音
      • 5.2. 变分自编码器
      • 5.3. 非自回归文本到语音中的时长预测
    • 6. 结论

摘要

最近提出了几种支持单阶段训练和并行采样的端到端文本到语音(TTS)模型,但其样本质量不如两阶段TTS系统。在这项工作中,我们提出了一种并行端到端TTS方法,其生成的音频比当前的两阶段模型更自然。我们的方法采用了变分推理,并结合了正规化流和对抗训练过程,提高了生成模型的表达能力。我们还提出了一个随机时长预测器,用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机时长预测器,我们的方法能够表达文本输入可以以多种方式、不同音高和节奏发音的自然一对多关系。在LJ Speech(单一说话人数据集)上的主观人类评估(平均意见得分,MOS)显示,我们的方法优于当前最好的公开TTS系统,并且达到了与真实音频相当的MOS。

1. 引言

文本到语音(TTS)系统通过若干组件从给定文本合成原始语音波形。随着深度神经网络的快速发展,TTS系统流水线已简化为两个阶段的生成建模,除了文本预处理如文本规范化和音素化。第一阶段是从预处理的文本生成中间语音表示,如mel-spectrogram(Shen et al., 2018)或语言特征(Oord et al., 2016),第二阶段是生成以中间表示为条件的原始波形(Oord et al., 2016;Kalchbrenner et al., 2018)。每个两阶段流水线的模型是独立开发的。

基于神经网络的自回归TTS系统已经展示了合成逼

相关内容

热门资讯

裸辞做“一人公司”,我后悔了 去年这个时候,一位以色列程序员正在东南亚旅行。他顺手把一个在脑子里转了很久的想法做成了产品,一个让任...
南京建成国内首个Pre-6G试... 4月21日,2026全球6G技术与产业生态大会在南京开幕。全息互动技术展台前,一名远在北京的工作人员...
超梵求职受邀参加“2025抖音... 超梵求职受邀参加“2025抖音巨量引擎成人教育行业生态大会”,探讨分享优质内容传播,服务万千学员。 ...
摩托罗拉Razr 2026(R... IT之家 4 月 22 日消息,摩托罗拉宣布新一代 Razr 折叠手机将于 4 月 29 日在美国发...
库克卸任,特纳斯领航:苹果新纪... 苹果首席执行官蒂姆·库克将卸任,硬件工程主管约翰·特纳斯将接任,苹果公司今天宣布此事。 库克将在夏季...