GPT-SoVITS

3个月前发布 68 0 0

一个强大的语音合成工具,特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换,支持多种语言,并提供了易于使用的WebUI工具。

语言:
zh,en
收录时间:
2025-01-19
GPT-SoVITSGPT-SoVITS
GPT-SoVITS

该项目的核心优势、应用场景和相关项目:
– **核心优势**:
– 零样本语音转换(5s)/少样本语音转换(1min)。
– TTS 语速控制。
– 增强的 TTS 情感控制。
– 尝试将 SoVITS 标记输入更改为词汇的概率分布。
– 改进英语和日语文本前端。
– 开发小型和大型 TTS 模型。
– Colab 脚本。
– 尝试扩展训练数据集(2k 小时->10k 小时)。
– 更好的 sovits 基础模型(增强音频质量)。
– 模型混合。
– **应用场景**:
– 零样本语音转换:输入一个 5 秒的语音样本即可体验即时的文本到语音转换。
– 少样本语音转换:只需 1 分钟的训练数据即可微调模型以提高语音相似度和真实感。
– 跨语言支持:在与训练数据集不同的语言中进行推理目前支持英语、日语和中文。
– WebUI 工具:集成的工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标记帮助初学者创建训练数据集和 GPT/SoVITS 模型。
– **相关项目**:
– ar-vits
– SoundStorm
– vits
– TransferTTS
– contentvec
– hifi-gan
– fish-speech
– Chinese Speech Pretrain
– Chinese-Roberta-WWM-Ext-Large
– paddlespeech zh_normalization
– LangSegment
– ultimatevocalremovergui
– audio-slicer
– SubFix
– FFmpeg
– gradio
– faster-whisper
– FunASR

数据统计

相关导航