VALL-E翻译站点

7个月前发布 57 0 0

VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说，我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型（称为 VALL-E），并将 TTS 视为...

语言：

zh,en

收录时间：

2025-01-19

打开网站手机查看

AI大模型平台

VALL-E翻译站点

VALL-E是一种用于文本到语音合成（TTS）的语言建模方法。具体来说我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型（称为VALL-E）并将TTS视为条件语言建模任务而不是像以前的工作那样将其视为连续信号回归。在预训练阶段我们将TTS训练数据扩大到60K小时的英语语音这比现有系统大数百倍。VALL-E具有上下文学习能力并且仅需使用3秒的未见说话者的录音作为声学提示即可用于合成高质量的个性化语音。实验结果表明在语音自然度和说话者相似性方面VALL-E明显优于最先进的零样本TTS系统。此外我们发现VALL-E可以在合成中保留声学提示的说话者的情绪和声学环境。

数据统计

VALL-E翻译站点

数据统计

相关导航

浪潮海若大模型

岩芯数智大模型

BenTsao本草

百川大模型

语鲸大模型

K2-上海交通大学

猎户星空大模型

MiniMax开放平台