GPT-SoVITS

7个月前发布 89 0 0

一个强大的语音合成工具，特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换，支持多种语言，并提供了易于使用的WebUI工具。

语言：

zh,en

收录时间：

2025-01-19

打开网站手机查看

AI开发

GPT-SoVITS

该项目的核心优势、应用场景和相关项目：
– **核心优势**：
– 零样本语音转换（5s）/少样本语音转换（1min）。
– TTS 语速控制。
– 增强的 TTS 情感控制。
– 尝试将 SoVITS 标记输入更改为词汇的概率分布。
– 改进英语和日语文本前端。
– 开发小型和大型 TTS 模型。
– Colab 脚本。
– 尝试扩展训练数据集（2k 小时->10k 小时）。
– 更好的 sovits 基础模型（增强音频质量）。
– 模型混合。
– **应用场景**：
– 零样本语音转换：输入一个 5 秒的语音样本即可体验即时的文本到语音转换。
– 少样本语音转换：只需 1 分钟的训练数据即可微调模型以提高语音相似度和真实感。
– 跨语言支持：在与训练数据集不同的语言中进行推理目前支持英语、日语和中文。
– WebUI 工具：集成的工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标记帮助初学者创建训练数据集和 GPT/SoVITS 模型。
– **相关项目**：
– ar-vits
– SoundStorm
– vits
– TransferTTS
– contentvec
– hifi-gan
– fish-speech
– Chinese Speech Pretrain
– Chinese-Roberta-WWM-Ext-Large
– paddlespeech zh_normalization
– LangSegment
– ultimatevocalremovergui
– audio-slicer
– SubFix
– FFmpeg
– gradio
– faster-whisper
– FunASR

数据统计

GPT-SoVITS

数据统计

相关导航

Channel

PhotoMaker V2

Generative BI

EMO

灵境矩阵

FutureTools未来工具翻译站点

REGRESSION GAMES

OSS Insight