科大讯飞AI平台
科大讯飞AI平台
这个项目的核心优势是设计了一种新颖的两阶段训练方案能够利用容易获得的数据集(即图像姿势对和无姿势视频)和预训练的文本到图像(T2I)模型来获得姿势可控的角色视频。具体来说在第一阶段仅使用关键点-图像对进行可控的文本到图像生成。学习一个零初始化的卷积编码器来编码姿势信息。在第二阶段通过添加可学习的时间自注意力和改进的跨帧自注意力块通过无姿势视频数据集微调上述网络的运动。
应用场景包括创建各种数字人类、生成文本可编辑和姿势可控的角色视频等。
相关项目包括利用预训练的文本到图像(T2I)模型来获得姿势可控的角色视频等。