该项目的核心优势、应用场景和相关项目:
– **核心优势**:
– 零样本语音转换(5s)/少样本语音转换(1min)。
– TTS 语速控制。
– 增强的 TTS 情感控制。
– 尝试将 SoVITS 标记输入更改为词汇的概率分布。
– 改进英语和日语文本前端。
– 开发小型和大型 TTS 模型。
– Colab 脚本。
– 尝试扩展训练数据集(2k 小时->10k 小时)。
– 更好的 sovits 基础模型(增强音频质量)。
– 模型混合。
– **应用场景**:
– 零样本语音转换:输入一个 5 秒的语音样本即可体验即时的文本到语音转换。
– 少样本语音转换:只需 1 分钟的训练数据即可微调模型以提高语音相似度和真实感。
– 跨语言支持:在与训练数据集不同的语言中进行推理目前支持英语、日语和中文。
– WebUI 工具:集成的工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标记帮助初学者创建训练数据集和 GPT/SoVITS 模型。
– **相关项目**:
– ar-vits
– SoundStorm
– vits
– TransferTTS
– contentvec
– hifi-gan
– fish-speech
– Chinese Speech Pretrain
– Chinese-Roberta-WWM-Ext-Large
– paddlespeech zh_normalization
– LangSegment
– ultimatevocalremovergui
– audio-slicer
– SubFix
– FFmpeg
– gradio
– faster-whisper
– FunASR
百度AI市场,基于百度大脑领先的技术基础,集合众多优秀企业和开发者,打通AI产业上下游。为AI服务商提供展示和交易平台,为需求方提供多维度的软件能力、硬件产品、解决方案、数...
chtml即code helper tag mark law 代码辅助标记方法,是一款简洁好用的在线的代码命名工具、变量命名工具、变量命名规则库,使用它可以让您轻松摆脱翻译软件的困扰,快速选择合适...
通过预训练的运动建模模块,使得用户能够轻松地创作出丰富多样的动画内容,同时保持了原有模型的风格和特性。它的跨领域应用性和易于集成的特点,极大地扩展了个性化动画的创作空间。
一个创新的多智能体编程框架,它通过模拟人类工作流程和采用标准化操作程序来提高代码生成的质量和效率。该框架特别适合解决复杂的软件开发任务,并为自动化编程和多智能体协作提...
助力企业智能化升级,拓展智慧生产力
Plandex是一个基于终端的开源 AI 编程引擎,可帮助程序员完成复杂的软件编程开发任务、解决不良输出并最大限度地提高生产力。
为自由职业者、组织和品牌提...
在游戏中与ai竞争,引入第一个全功能的AI、游戏和锦标赛平台。创建自己的ai并参与竞争!