AnyText
一个创新的多语言视觉文本生成和编辑工具,利用先进的扩散模型技术,能够准确生成和编辑图像中的文本。它不仅支持多种语言和文本风格,还能在复杂的图像背景中保持文本的清晰度和...
这个项目的核心优势是设计了一种新颖的两阶段训练方案能够利用容易获得的数据集(即图像姿势对和无姿势视频)和预训练的文本到图像(T2I)模型来获得姿势可控的角色视频。具体来说在第一阶段仅使用关键点-图像对进行可控的文本到图像生成。学习一个零初始化的卷积编码器来编码姿势信息。在第二阶段通过添加可学习的时间自注意力和改进的跨帧自注意力块通过无姿势视频数据集微调上述网络的运动。
应用场景包括创建各种数字人类、生成文本可编辑和姿势可控的角色视频等。
相关项目包括利用预训练的文本到图像(T2I)模型来获得姿势可控的角色视频等。