【深度学习】【语音TTS】vits 论文，Variational Inference Text-to-Speech（1）_电脑知识

【深度学习】【语音TTS】vits 论文，Variational Inference Text-to-Speech（1）

创始人

2024-11-14 11:33:53

代码：https://github.com/jaywalnut310/vits
论文：https://arxiv.org/abs/2106.06103

文章目录

- 摘要
- 1. 引言
- 2. 方法
- - 2.1. 变分推理
  - - 2.1.1. 概述
    - 2.1.2. 重构损失
    - 2.1.3. KL散度
  - 2.2. 对齐估计
  - - 2.2.1. 单调对齐搜索
    - 2.2.2. 从文本预测时长
  - 2.3. 对抗训练
  - 2.4. 最终损失
  - 2.5. 模型架构
  - - 2.5.1. 后验编码器
    - 2.5.2. 先验编码器
    - 2.5.3. 解码器
    - 2.5.4. 判别器
    - 2.5.5. 随机时长预测器
- 3. 实验
- - 3.1. 数据集
  - 3.2. 预处理
  - 3.3. 训练
  - 3.4. 比较实验设置
- 4. 结果
- - 4.1. 语音合成质量
  - 4.2. 多说话人文本到语音的泛化能力
  - 4.3. 语音变化
  - 4.4. 合成速度
- 5. 相关工作
- - 5.1. 端到端文本到语音
  - 5.2. 变分自编码器
  - 5.3. 非自回归文本到语音中的时长预测
- 6. 结论

摘要

最近提出了几种支持单阶段训练和并行采样的端到端文本到语音（TTS）模型，但其样本质量不如两阶段TTS系统。在这项工作中，我们提出了一种并行端到端TTS方法，其生成的音频比当前的两阶段模型更自然。我们的方法采用了变分推理，并结合了正规化流和对抗训练过程，提高了生成模型的表达能力。我们还提出了一个随机时长预测器，用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机时长预测器，我们的方法能够表达文本输入可以以多种方式、不同音高和节奏发音的自然一对多关系。在LJ Speech（单一说话人数据集）上的主观人类评估（平均意见得分，MOS）显示，我们的方法优于当前最好的公开TTS系统，并且达到了与真实音频相当的MOS。

1. 引言

文本到语音（TTS）系统通过若干组件从给定文本合成原始语音波形。随着深度神经网络的快速发展，TTS系统流水线已简化为两个阶段的生成建模，除了文本预处理如文本规范化和音素化。第一阶段是从预处理的文本生成中间语音表示，如mel-spectrogram（Shen et al., 2018）或语言特征（Oord et al., 2016），第二阶段是生成以中间表示为条件的原始波形（Oord et al., 2016；Kalchbrenner et al., 2018）。每个两阶段流水线的模型是独立开发的。

基于神经网络的自回归TTS系统已经展示了合成逼

上一篇：网页禁止移除水印

下一篇：Mojo中值的所有权简介

【深度学习】【语音TTS】vits 论文，Variational Inference Text-to-Speech（1）

文章目录

摘要

1. 引言

相关内容

热门资讯