欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

论文解读:DDPM — 扩散模型如何颠覆图像生成

2026-05-08 · AI 论文

论文标题:Denoising Diffusion Probabilistic Models

作者:Jonathan Ho, Ajay Jain, Pieter Abbeel

发表:NeurIPS 2020 | UC Berkeley

引用量:15,000+

arXiv:2006.11239

代码:GitHub

一、从GAN到扩散模型

2020年之前,图像生成被GAN统治。GAN生成快但训练不稳定、模式崩塌、缺乏多样性。扩散模型提供了一个全新的思路:与其直接生成,不如先学会去噪

灵感来自非平衡热力学——墨水滴入水中逐渐扩散(加噪),如果我们学会逆转这个过程(去噪),就能从噪声中"提取"出清晰的图像。

二、前向过程(加噪)

给定一张清晰图像x_0,逐步添加高斯噪声,经过T步后变成纯噪声x_T:

q(x_t | x_{t-1}) = N(x_t; √(1-β_t) · x_{t-1}, β_t · I)

其中β_t是预设的噪声方差表(如从0.0001线性增长到0.02)。

关键性质——可以一步跳到任意时刻:

q(x_t | x_0) = N(x_t; √ᾱ_t · x_0, (1-ᾱ_t) · I)
其中 ᾱ_t = ∏(1-β_s)

三、反向过程(去噪)

训练一个神经网络来预测每一步添加的噪声,从而逐步去噪:

p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), Σ_θ(x_t, t))

核心简化:不直接预测x_0,而是预测噪声ε

# 模型预测噪声
ε_θ = U-Net(x_t, t)

# 从x_t推导x_{t-1}
μ_θ = (1/√α_t) · (x_t - (β_t/√(1-ᾱ_t)) · ε_θ)

四、为什么预测噪声而非原图?

这是DDPM最精妙的设计之一:

  • 预测噪声让损失函数简化为简单的MSE:L = ||ε - ε_θ(x_t, t)||²
  • 噪声分布简单(高斯),模型更容易学习
  • 与去噪分数匹配(Denoising Score Matching)建立理论联系

五、U-Net架构

DDPM使用修改版U-Net作为去噪网络:

  • 编码器-解码器结构 + 跳跃连接
  • 在每个分辨率层注入时间步t的嵌入
  • 使用自注意力层(低分辨率处)捕获全局结构
  • 渐进式特征提取:粗略结构→精细细节

六、实验结果

数据集指标DDPM成绩之前最佳
CIFAR-10FID3.17~3.5 (StyleGAN2)
CIFAR-10IS9.46~9.2
LSUN 256×256样本质量≈ProgressiveGAN

七、从DDPM到现代扩散模型

  • Stable Diffusion:在潜空间中做扩散(而非像素空间),极大降低计算成本
  • DALL·E 2/3:扩散模型 + CLIP引导
  • Midjourney:扩散模型 + 精细化美学调优
  • Sora:视频扩散模型,3D时空Patch
  • DDIM:加速采样,从1000步减少到50步

八、原文摘要

We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound designed according to a novel connection between diffusion probabilistic models and denoising score matching with Langevin dynamics. On the unconditional CIFAR10 dataset, we obtain an Inception score of 9.46 and a state-of-the-art FID score of 3.17.

评论区

发表评论