这个项目是一个基于 Transformer 的文本转音频模型名为 Bark由 Suno 创建。Bark 可以生成高度逼真的多语言语音以及其他音频包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流如笑声、叹息和哭泣。
为了支持研究社区Suno 提供了预训练模型检查点可供推理使用。Bark 支持多种语言并且可以自动从输入文本中确定语言。当使用代码切换文本提示时Bark 将尝试使用相应语言的本地口音。目前英语的质量最好其他语言的质量预计会随着规模的扩大而进一步提高。
Bark 可以生成各种类型的音频并且在原则上不区分语音和音乐。有时Bark 会选择将文本生成为音乐但你可以通过在歌词周围添加音符来帮助它。Bark 具有完全克隆声音的能力包括音高、音调、情感和韵律。该模型还尝试从输入音频中保留音乐、环境噪音等。
然而为了减轻这种技术的滥用Suno 将音频历史提示限制为一组有限的、完全合成的选项每种语言都可以从中选择。指定遵循以下模式:{lang_code}_speaker_{0-9}。你可以提供某些说话者提示如旁白、男人、女人等。请注意这些并不总是被尊重特别是如果给出了冲突的音频历史提示。
安装 Bark 可以使用 pip 安装或 git 克隆。Bark 已经在 CPU 和 GPU(pytorch 2.0+、CUDA 11.7 和 CUDA 12.0)上进行了测试和使用。运行 Bark 需要运行超过 1 亿参数的变压器模型。在现代 GPU 和 PyTorch 夜间版本上Bark 可以大致实时生成音频。在较旧的 GPU、默认的 colab 或 CPU 上推理时间可能会慢 10-100 倍。如果你没有可用的新硬件或者你想使用更大版本的模型你也可以在这里注册早期访问我们的模型操场。
Bark 支持多种语言包括英语、德语、西班牙语、法语、印地语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、土耳其语、简体中文、阿拉伯语、孟加拉语和泰卢固语。