步遥情感网
您的当前位置:首页AIGC-文生视频-学习之路

AIGC-文生视频-学习之路

来源:步遥情感网

CFG

马尔可夫链

stable diffusion的前传:

VQGAN是一个改进版的VQVAE,它将感知误差和GAN引入了图像压缩模型,把压缩图像生成模型替换成了更强大的Transformer。相比纯种的GAN(如StyleGAN),VQGAN的强大之处在于它支持带约束的高清图像生成。VQGAN借助NLP中"decoder-only"策略实现了带约束图像生成,并使用滑动窗口机制实现了高清图像生成。虽然在某些特定任务上VQGAN还是落后于其他GAN,但VQGAN的泛化性和灵活性都要比纯种GAN要强。它的这些潜力直接促成了Stable Diffusion的诞生。

如果你是读完了VQVAE再来读的VQGAN,为了完全理解VQGAN,你只需要掌握本文提到的4个知识点:VQVAE到VQGAN的改进方法、使用Transformer做图像生成的方法、使用"decoder-only"策略做带约束图像生成的方法、用滑动滑动窗口生成任意尺寸的图片的思想。

改进版的vqgen:maskgit

stable diffusion:

文生图相关的一些原理:

 stable diffusion的相关介绍与代码展示:CLIP text encoder、UNet、文生图、文生视频、inpainting

AnimateDiff:

https:///qq_41994006/article/details/132011849
https:///shadowcz007/article/details/131757666
https://www.zhihu.com/pin/16856654804700161
部署:https:///weixin_51330846/article/details/1337957

Dreambooth


Reuse-And-Diffuse

phenaki


maskgit 


ViViT

IQA--VQA

因篇幅问题不能全部显示,请点此查看更多更全内容