Skip to content

zishen-ucap/Work_Summary_for_2024

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 

Repository files navigation

年度工作总结

本年度总结围绕前沿算法跟踪、模型微调训练、算法优化部署及相关文档编写四个方面,对本人年度工作的主要内容与成果进行了梳理与总结。

1. 前沿算法跟踪

本章节将从相关数据统计以及算法归纳总结两个方面,介绍本人在前沿算法跟踪所做的工作。

1.1 相关数据统计

目前已统计文生视频11个、图生视频8个、动作驱动4个、轨迹控制3个SOTA算法,其主观效果与客观指标的详细内容已整理至下方链接。

文生视频 图生视频 动作控制 轨迹控制I2V 轨迹控制T2V

1.2 算法归纳总结

视频生成算法发展

基于Diffusion模型的视频生成技术的发展可以分为三个主要阶段:伪2+1D Unet时期、2+1D Dit时期,以及3D Dit时期。时间复杂度从简单到复杂,逐步实现了视频生成算法的优化和升级。

在 伪2+1D Unet时期,核心算法以 AnimateDiffSVD 为代表,这个时期的算法通常是基于预训练的图像生成模型引入额外的运动模块进行视频生成。这些算法主要依赖 2D VAE 进行初步特征提取。位置编码方面采用相对位置编码和可学习位置编码,文本编码器则以 CLIP 为主。这一时期技术特点是注重静态图像的时间轴扩展,但对动态复杂性的捕捉能力有限。

进入 2+1D Dit时期,主要以 Open-Sora 1.2Open-Sora-Plan 1.2.0 为代表,模型增加了对时空注意力机制(Spatial & Temporal Attention)的支持,不再使用预训练的图像生成模型,而是用视频进行模型的从头训练。引入了3D Causal VAE来处理更复杂的时空特征。同时,位置编码扩展为3D旋转位置编码,文本编码器升级为 T5,进一步提升了模型对视频生成的动态与语义理解能力。

在 3D Dit时期,技术达到了更高的复杂度和精细度,以 CogvideoXMochiOpenSora-Plan 1.3.0HunyuanVideo为代表。模型主要采用全3D注意力机制(Full 3D Attention)技术,时间复杂度增加的同时,生成视频的质量也有了质的飞跃。VAE使用更先进的3D Causal VAE 和 WF-VAE,位置编码则采用3D旋转位置编码以增强时空特征的表达。文本编码器仍为 T5或 T5+CLIP。

对于条件控制视频生成,伪2+1D Unet时期会使用与Unet相匹配的ControlNet作为条件适配器,而到了Dit时期取消了Unet后,则采用的是条件编码器来进行额外条件控制的适配器。

整个技术发展体现了从2+1D到3D,从单纯时序到时空一体化的演变,同时模型的精度、生成质量和动态复杂性也得到了显著提升。

2. 模型微调训练

类型 数据集 输出视频
画风
2-1-1.mp4
2-1-2.mp4
人物
2-1-3.mp4
2-1-4.mp4

模型微调训练主要是以Cogvideox+LoRA的技术路线实现,以满足人物、画风定制化。

3. 算法优化部署

本章节将从算法优化以及算法部署两个方面,介绍本人在算法优化部署所做的工作。

3.1 算法优化

3.1.1 SVD算法优化

算法 SVD SVD SVD+exVideo
帧率 25 64 64
效果
3-1-1-1.mp4
3-1-1-2.mp4
3-1-1-3.mp4
SVD算法在生成大于25帧的视频会发生明显的抖动现象,在结合exVideo算法后,就能避免这种现象。

3.1.2 Mimicmotion算法流程优化

输入图像 输入视频 Mimicmotion +Facefusion +SGM-VFI (+插值法校正)
3-1-2-1.mp4
3-1-2-2.mp4
3-1-2-3.mp4
3-1-2-4.mp4
3-1-2-5.mp4
Mimicmotion算法在处理输入图像主题与输入视频主体体型差异较大时,存在以下问题:无法有效还原输入图像中的主体体型,人脸难以保持与输入图像一致,且生成视频帧数减少一半,导致视频流畅性不足。为解决这些问题,我们引入了 FaceFusion 技术,使生成视频能够更好地保持输入图像中的人脸特征。同时,采用 SGM-VFI算法 对视频进行帧插值,大幅提升视频流畅性。此外,通过插值法校正体型关键点,使输出视频能够更准确地保持输入图像的主体体型。然而,由于插值法的引入,在人物距离镜头过近的场景中,可能会导致主体结构出现崩坏现象。
w/o 插值矫正 w 插值校正
3-1-2-6.mp4
3-1-2-7.mp4

3.1.3 Cogvideo文生视频算法流程优化

Cogvideox +llm扩词 +SGM-VFI
3-1-3-1.mp4
3-1-3-2.mp4
3-1-3-3.mp4
通过运用大语言模型对提示词进行扩展,可以使视频生成模型的生成内容更加生动与丰富。同时,结合 SGM-VFI 算法对生成视频进行帧插值处理,提升了视频的流畅性和观感。

3.1.4 Cogvideo图生视频算法流程优化

输入图像 调整前 调整后
3-1-4-1.mp4
3-1-4-2.mp4
调整前,CogvideoX 的图生视频模型无法还原输入图像的原始分辨率,容易导致视频生成过程中出现变形问题。为了解决这一问题,我们在生成视频前对输入图像进行黑边填充,生成后再切割掉黑边。这种方法能够有效还原输入图像的分辨率,避免形变的发生。

3.1.5 Mochi算法提速

算法 Mochi Mochi(diffuser) Mochi+xDiT(ray) Mochi (diffusers) + xDiT (xfuser)
效果
3-1-5-1.mp4
3-1-5-3.mp4
3-1-5-2.mp4
3-1-5-4.mp4
显存(G) 25*4 24 38*4 45*4
推理时间(s) 308 827 279 286
使用xDiT提高了Mochi算法的推理速度。

3.2 算法部署

完成相应视频生成接口开发:

  • 文生视频:Cogvideox(T2V 5B) (已上至开悟集市)
  • 图生视频:Cogvideox(I2V 5B)
  • 动作驱动:Mimicmotion

4. 相关文档撰写

4.1 专利交底书撰写

完成专利交底书撰写并与知识产权公司完成对接,后续流程由专利公司负责推进:

  • 《基于文本的运动视频生成方法、装置、存储介质及设备》
  • 《基于文本描述的视频拼接方法、装置、存储介质及设备》

4.2 视频类技术介绍文档的撰写

视频类介绍文档:文生视频、图生视频、动作驱动、图像换风格、视频换脸、图像换脸、图片换背景

About

This is my work summary for 2024.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published