该项目的核心优势、应用场景和相关项目:
– **核心优势**:
– 零样本语音转换(5s)/少样本语音转换(1min)。
– TTS 语速控制。
– 增强的 TTS 情感控制。
– 尝试将 SoVITS 标记输入更改为词汇的概率分布。
– 改进英语和日语文本前端。
– 开发小型和大型 TTS 模型。
– Colab 脚本。
– 尝试扩展训练数据集(2k 小时->10k 小时)。
– 更好的 sovits 基础模型(增强音频质量)。
– 模型混合。
– **应用场景**:
– 零样本语音转换:输入一个 5 秒的语音样本即可体验即时的文本到语音转换。
– 少样本语音转换:只需 1 分钟的训练数据即可微调模型以提高语音相似度和真实感。
– 跨语言支持:在与训练数据集不同的语言中进行推理目前支持英语、日语和中文。
– WebUI 工具:集成的工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标记帮助初学者创建训练数据集和 GPT/SoVITS 模型。
– **相关项目**:
– ar-vits
– SoundStorm
– vits
– TransferTTS
– contentvec
– hifi-gan
– fish-speech
– Chinese Speech Pretrain
– Chinese-Roberta-WWM-Ext-Large
– paddlespeech zh_normalization
– LangSegment
– ultimatevocalremovergui
– audio-slicer
– SubFix
– FFmpeg
– gradio
– faster-whisper
– FunASR
一个创新的文本到视频生成框架,它通过两阶段训练策略实现了高度的姿态控制和时间连贯性。该框架不仅能够根据文本描述生成视频,还能让用户通过姿态序列精确控制视频中角色的动作...
中国AI开源社区,汇聚开源模型和数据集等资源,让AI资源更方便获取。
轻松编写高效,无错误的SQL查询
基于 CogVideoX 结合 EasyAnimate 修改的 AI 视频生成工具,它提供更自由的生成条件,支持从文字、图片到视频的多模态内容生成。
Devin拥有自我学习新技术的能力,可以独立完成全栈应用的构建和部署
节省工作时间,让 Durable AI 在 30 秒内创建可创收的网站。
强大的高分辨率图像生成框架,它通过渐进式上采样、跳跃残差和扩张采样机制,实现了在不进行额外训练和不产生过高内存需求的情况下,将模糊的低分辨率图像变得更加高清。它易于使...
Toolify.ai是世界上最大的人工智能工具目录和GPTs商店应用程序,它提供超过9700个人工智能网站和工具。这个平台由ChatGPT自动更新,确保信息的准确性和时效性。