本年度总结围绕前沿算法跟踪、模型微调训练、算法优化部署及相关文档编写四个方面,对本人年度工作的主要内容与成果进行了梳理与总结。
本章节将从相关数据统计以及算法归纳总结两个方面,介绍本人在前沿算法跟踪所做的工作。
目前已统计文生视频11个、图生视频8个、动作驱动4个、轨迹控制3个SOTA算法,其主观效果与客观指标的详细内容已整理至下方链接。
文生视频 图生视频 动作控制 轨迹控制I2V 轨迹控制T2V
基于Diffusion模型的视频生成技术的发展可以分为三个主要阶段:伪2+1D Unet时期、2+1D Dit时期,以及3D Dit时期。时间复杂度从简单到复杂,逐步实现了视频生成算法的优化和升级。
在 伪2+1D Unet时期,核心算法以 AnimateDiff 和 SVD 为代表,这个时期的算法通常是基于预训练的图像生成模型引入额外的运动模块进行视频生成。这些算法主要依赖 2D VAE 进行初步特征提取。位置编码方面采用相对位置编码和可学习位置编码,文本编码器则以 CLIP 为主。这一时期技术特点是注重静态图像的时间轴扩展,但对动态复杂性的捕捉能力有限。
进入 2+1D Dit时期,主要以 Open-Sora 1.2 和 Open-Sora-Plan 1.2.0 为代表,模型增加了对时空注意力机制(Spatial & Temporal Attention)的支持,不再使用预训练的图像生成模型,而是用视频进行模型的从头训练。引入了3D Causal VAE来处理更复杂的时空特征。同时,位置编码扩展为3D旋转位置编码,文本编码器升级为 T5,进一步提升了模型对视频生成的动态与语义理解能力。
在 3D Dit时期,技术达到了更高的复杂度和精细度,以 CogvideoX、Mochi 、 OpenSora-Plan 1.3.0 和HunyuanVideo为代表。模型主要采用全3D注意力机制(Full 3D Attention)技术,时间复杂度增加的同时,生成视频的质量也有了质的飞跃。VAE使用更先进的3D Causal VAE 和 WF-VAE,位置编码则采用3D旋转位置编码以增强时空特征的表达。文本编码器仍为 T5或 T5+CLIP。
对于条件控制视频生成,伪2+1D Unet时期会使用与Unet相匹配的ControlNet作为条件适配器,而到了Dit时期取消了Unet后,则采用的是条件编码器来进行额外条件控制的适配器。
整个技术发展体现了从2+1D到3D,从单纯时序到时空一体化的演变,同时模型的精度、生成质量和动态复杂性也得到了显著提升。
类型 | 数据集 | 输出视频 |
---|---|---|
画风 |
2-1-1.mp4 |
2-1-2.mp4 |
人物 |
2-1-3.mp4 |
2-1-4.mp4 |
模型微调训练主要是以Cogvideox+LoRA的技术路线实现,以满足人物、画风定制化。
本章节将从算法优化以及算法部署两个方面,介绍本人在算法优化部署所做的工作。
算法 | SVD | SVD | SVD+exVideo |
---|---|---|---|
帧率 | 25 | 64 | 64 |
效果 |
3-1-1-1.mp4 |
3-1-1-2.mp4 |
3-1-1-3.mp4 |
输入图像 | 输入视频 | Mimicmotion | +Facefusion | +SGM-VFI | (+插值法校正) |
---|---|---|---|---|---|
![]() |
3-1-2-1.mp4 |
3-1-2-2.mp4 |
3-1-2-3.mp4 |
3-1-2-4.mp4 |
3-1-2-5.mp4 |
w/o 插值矫正 | w 插值校正 |
---|---|
3-1-2-6.mp4 |
3-1-2-7.mp4 |
Cogvideox | +llm扩词 | +SGM-VFI |
---|---|---|
3-1-3-1.mp4 |
3-1-3-2.mp4 |
3-1-3-3.mp4 |
算法 | Mochi | Mochi(diffuser) | Mochi+xDiT(ray) | Mochi (diffusers) + xDiT (xfuser) |
---|---|---|---|---|
效果 |
3-1-5-1.mp4 |
3-1-5-3.mp4 |
3-1-5-2.mp4 |
3-1-5-4.mp4 |
显存(G) | 25*4 | 24 | 38*4 | 45*4 |
推理时间(s) | 308 | 827 | 279 | 286 |
完成相应视频生成接口开发:
- 文生视频:Cogvideox(T2V 5B) (已上至开悟集市)
- 图生视频:Cogvideox(I2V 5B)
- 动作驱动:Mimicmotion
完成专利交底书撰写并与知识产权公司完成对接,后续流程由专利公司负责推进:
- 《基于文本的运动视频生成方法、装置、存储介质及设备》
- 《基于文本描述的视频拼接方法、装置、存储介质及设备》
视频类介绍文档:文生视频、图生视频、动作驱动、图像换风格、视频换脸、图像换脸、图片换背景