VisionStory
VisionStory 是一款创新的 AI 应用,能够将用户上传的人物图片转换成高清的数字人。只需简单几步操作,即可获得一个能够根据输入的文案或音频进行口播的数字人视频
该项目是有道数字人其核心优势是全自研语音识别、语音合成、多模态感知、文档QA等AI技术应用于虚拟形象播报、实时交互两大场景。
其应用场景包括:
– 交互数字人盒子:低成本克隆精品形象定制短视频制作视频翻译。
– 交互数字人:快速低成本形象克隆上传1分钟视频即可在30分钟内训练好形象分身。形象定制成本低口型匹配度佳。整体效果好足够应用在口播视频、教学课件制作、知识科普等场景。
– 一键合成数字人短视频:可灵活通过背景、贴片、视频、文字等多元方式进行场景搭建。输入文本或音频即可快速制作视频大大提升了内容生产效率。同时支持多语种、多音色的视频合成。
– 视频翻译:快速、准确翻译视频文本克隆声音改变口型在切换语言的同时保留表达者音色与表达风格逼真的口型与自然的神情可满足跨境电商出海营销、广告多国投放、自媒体视频创作等多样化的视频翻译需求。
– 交互数字人:实时语音交互支持即时在线对话超强大脑及学习能力。
相关项目包括:
– 友商:首帧延迟率高延迟达到5秒以上;不能打断只能将整段说完后再进行下一段对话;知识库有限使用传统问答或通用大模型。
– 有道交互数字人:延迟率低实时语音交互首帧延迟1到2秒;实时打断支持实时语音打断;灵活的大脑可以接入文档问答构建企业专有知识库。