CFG
马尔可夫链
stable diffusion的前传:
VQGAN是一个改进版的VQVAE,它将感知误差和GAN引入了图像压缩模型,把压缩图像生成模型替换成了更强大的Transformer。相比纯种的GAN(如StyleGAN),VQGAN的强大之处在于它支持带约束的高清图像生成。VQGAN借助NLP中"decoder-only"策略实现了带约束图像生成,并使用滑动窗口机制实现了高清图像生成。虽然在某些特定任务上VQGAN还是落后于其他GAN,但VQGAN的泛化性和灵活性都要比纯种GAN要强。它的这些潜力直接促成了Stable Diffusion的诞生。
如果你是读完了VQVAE再来读的VQGAN,为了完全理解VQGAN,你只需要掌握本文提到的4个知识点:VQVAE到VQGAN的改进方法、使用Transformer做图像生成的方法、使用"decoder-only"策略做带约束图像生成的方法、用滑动滑动窗口生成任意尺寸的图片的思想。
改进版的vqgen:maskgit
stable diffusion:
文生图相关的一些原理:
stable diffusion的相关介绍与代码展示:CLIP text encoder、UNet、文生图、文生视频、inpainting
AnimateDiff:
https:///qq_41994006/article/details/132011849
https:///shadowcz007/article/details/131757666
https://www.zhihu.com/pin/16856654804700161
部署:https:///weixin_51330846/article/details/1337957
Dreambooth
Reuse-And-Diffuse
phenaki
maskgit
ViViT
IQA--VQA