Follow Your Pose

3个月前发布 57 0 0

一个创新的文本到视频生成框架,它通过两阶段训练策略实现了高度的姿态控制和时间连贯性。该框架不仅能够根据文本描述生成视频,还能让用户通过姿态序列精确控制视频中角色的动作...

语言:
zh,en
收录时间:
2025-01-19
Follow Your PoseFollow Your Pose
Follow Your Pose

这个项目的核心优势是设计了一种新颖的两阶段训练方案能够利用容易获得的数据集(即图像姿势对和无姿势视频)和预训练的文本到图像(T2I)模型来获得姿势可控的角色视频。具体来说在第一阶段仅使用关键点-图像对进行可控的文本到图像生成。学习一个零初始化的卷积编码器来编码姿势信息。在第二阶段通过添加可学习的时间自注意力和改进的跨帧自注意力块通过无姿势视频数据集微调上述网络的运动。

应用场景包括创建各种数字人类、生成文本可编辑和姿势可控的角色视频等。

相关项目包括利用预训练的文本到图像(T2I)模型来获得姿势可控的角色视频等。

数据统计

相关导航