VALL-E翻译站点

7个月前发布 57 0 0

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为...

语言:
zh,en
收录时间:
2025-01-19
VALL-E翻译站点VALL-E翻译站点
VALL-E翻译站点

VALL-E是一种用于文本到语音合成(TTS)的语言建模方法。具体来说我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为VALL-E)并将TTS视为条件语言建模任务而不是像以前的工作那样将其视为连续信号回归。在预训练阶段我们将TTS训练数据扩大到60K小时的英语语音这比现有系统大数百倍。VALL-E具有上下文学习能力并且仅需使用3秒的未见说话者的录音作为声学提示即可用于合成高质量的个性化语音。实验结果表明在语音自然度和说话者相似性方面VALL-E明显优于最先进的零样本TTS系统。此外我们发现VALL-E可以在合成中保留声学提示的说话者的情绪和声学环境。

数据统计

相关导航