发表于 ICLR 2017 · Oral | 组内论文精读

用于图像超分辨率的
摊销 MAP 推断

Amortised MAP Inference for Image Super-Resolution · AffGAN
Casper Kaae Sønderby, Jose Caballero, Lucas Theis,
Wenzhe Shi & Ferenc Huszár
Twitter(伦敦) · 哥本哈根大学
主线:MAP → 交叉熵 → 仿射投影 → GAN
全文总览

四个 Part,一条主线:MAP → 交叉熵 → 投影 → GAN


① MAP 推断
为什么要"取众数"
② 仿射投影
本文核心架构创新
③ 交叉熵
MAP 目标的化归
④ 三种解法
GAN / 去噪 / 密度

Part 1 · 背景

从 SR 多解性出发,先讲清"点估计",再引出 MAP 取众数 的动机(含与 PRSR 的区别)。

Part 2 · 方法

仿射投影层锁住有效解 → MAP 化归为交叉熵 → 三法 GAN/去噪/密度求解。

Part 3 · 实验

瑞士卷 → 仿射投影验证 → 草地 → CelebA → ImageNet,证明 AffGAN 视觉最优

Part 4 · 总结

高维"众数非典型"的反思;扩展为摊销变分推断(从后验采样)的未来方向。

AffGAN · 全文总览02
PART 1 / 4
1

背景与动机

Background & Motivation — 为什么放弃 MSE、转向 MAP
与 Pixel Recursive SR 的区别 什么是点估计 点估计三兄弟(mean/median/mode) Figure 1 · 瑞士卷 为什么 MAP 以前少用
背景 · 方法 · 实验 · 总结
从我们已知的出发

先接上旧知识:和 Pixel Recursive SR 有何不同?


Pixel Recursive SR(已学)对比图
本文 AffGAN(今天)对比图
一句话区别 ▸ 两者都在和"图像先验/概率分布"打交道;但 PRSR 显式建模分布并采样,AffGAN 不显式建分布,而是把找众数变成训练一个生成器。论文 §5.6 还反过来讨论"何时该改用采样"——与 PRSR 殊途同归。
AffGAN · 用于图像超分辨率的摊销 MAP 推断04
扫盲 ① · 预备 什么是"点估计"

先问一句:什么是"点估计 point estimation"

贝叶斯给我们的是一整条分布,但最终只能输出一张确定的图——必须从分布里挑一个"代表点"。
点估计:后验分布挑一个代表点
  • 完整贝叶斯:给出整条后验 p(y|x)——所有可能解 + 各自概率
  • 但落地要一个确定输出 → 用单个值/向量去概括整条分布,这就是 点估计
  • "挑哪个点"有不同策略 → 下一页的 均值 / 中位数 / 众数
和 PRSR 对照 ▸ PRSR 直接采样整条分布、给多样解;本文走点估计,只取一个代表点(MAP)。两条路在 §5.6 又会重新交汇。
AffGAN · 何为点估计05
扫盲 ① 主题一 · 贝叶斯点估计(MAP / MLE / 后验均值)

点估计"三兄弟":均值 mean / 中位数 median / 众数 mode

同一条后验分布 posterior p(y|x),你选的损失函数不同,"贝叶斯最优答案"就落在不同位置。
均值/中位数/众数三种点估计
损失函数 Loss贝叶斯最优解特点
平方损失 · MSE后验均值 mean易糊
绝对损失 · MAE后验中位数 median较稳健
0–1 损失后验众数 mode = MAP最锐利
关键 ▸ 三者都是合法的"最优解",差别只在损失函数。SR 里多个解并存:均值把它们抹平→糊;中位数稍好;只有众数 mode 落在概率最高处→最锐利、最可信。这正是本文选 MAP 的理由。
MAP
Maximum a Posteriori · 最大后验
argmaxy p(y|x),取后验最大的点(= 众数 mode)。本文的目标
MLE
Maximum Likelihood Estimation · 最大似然
只看似然 p(x|y)、不含先验;= 无信息先验下的 MAP
后验 Posterior
posterior ∝ likelihood × prior
p(y|x)p(x|y) · p(y)。MAP 就在它上面取峰值。
mode / mean / median
众数 / 均值 / 中位数
分布的"峰值 / 重心 / 中点",分别是 MAP / MSE / MAE 的最优解。
AffGAN · 扫盲:点估计06
核心图 · Figure 1 + Table 1

不是"唯一还原",而是在满足约束的候选里挑最像真实分布的点

低清 x 给的不是答案,而是一个约束;好解还要落在真实图像分布的高概率区
Figure 1 瑞士卷玩具示例
Figure 1:HR 数据 y=[y₁,y₂]~瑞士卷(灰,越深越像真实);下采样 x=(y₁+y₂)/2。(a) 给定 x=0.5,有效解落在橙线 y₂=1−y₁,红色阴影=后验 p(y|x=0.5)。(b) 扫 x∈[−8,8] 各模型输出 + 去噪梯度场。
注意:图中彩色点是各方法对不同 x 的 SR 输出,不是瑞士卷数据点——图 a 蓝点 = MAP;图 b 红 = MSE/绿 = MAE/蓝 = AffGAN/紫 = AffDG(同是蓝点,a 是 MAP、b 是 AffGAN)。
① 约束:Ay=x → 橙线 ② 后验:先验沿橙线切片 ③ 选点:mean / median / mode ④ 结果:Table 1
Table 1 · 直接估计的交叉熵(10 次随机初始化平均)
方法\( H[q_\theta,p_Y] \)
越低越像真实
\( \ell_{\mathrm{MSE}}(x,A\hat y) \)
一致性
MAP(暴力解)3.15
MSE9.101.25·10⁻²
MAE6.304.04·10⁻²
AffGAN4.100.0
SoftGAN4.258.87·10⁻²
AffDG3.810.0
SoftDG4.191.01·10⁻¹
读表 ▸ AffGAN/AffDG 的交叉熵 ≈ MAP(3.15)→ 确实落在高概率区;MSE 9.10、MAE 6.30 明显跑偏。一致性 \( \ell_{\mathrm{MSE}} \):Aff(投影)= 0 严格满足,Soft(软约束)≠ 0
AffGAN · Figure 1 + Table 107
背景 · 一个自然的疑问

MAP 更合理,为什么以前很少用?

不是没人知道 MAP 好,而是它有两道坎;本文把它做成了可训练的前馈模型

MAP 以前的两道坎

要知道"真实图像长什么样":MAP 需要图像先验 pY(y)。可它是几十万~百万维的分布,极难建模——你不容易知道哪个 y 概率最大。
还要做高维优化:即便有先验,也要解 \( \operatorname*{argmax}_y p_Y(y)\ \text{s.t.}\ Ay=x \)——非凸、多峰,每张图都要搜索,
所以大家用 MSE ▸ 简单、稳定、好训练、收敛快,而且 PSNR 高(PSNR 与 MSE 强相关)。代价是把多种纹理平均→糊

本文怎么破这两道坎

摊销:训练网络 fθ 代替"逐样本优化" → 前馈一次出图(破"慢")。
仿射投影层:把约束 Ay=x 变成结构强制(破"约束")。
GAN / 去噪梯度:把输出推向高概率区,免显式建模 pY(破"先验")。
三招 ▸ 正好对应下面 Part 2 的展开顺序:摊销 → 仿射投影 → 交叉熵 / 三法
一句话 ▸ 不是不知道 MAP 更合理,而是过去先验难建、优化难解;本文用摊销 + 投影 + GAN/去噪把 MAP 做成了可训练的前馈 SR。(MAP 只取一个众数、不表达不确定性——想要多样解见 §5.6 / 附录 F 的"采样"扩展。)
AffGAN · 为什么以前少用 MAP08
PART 2 / 4
2

方法

Method — 仿射投影 · 交叉熵化归 · 三种解法
摊销 MAP(一次训练) 零空间 / 伪逆 仿射投影层 (式7) MAP → 交叉熵 (式9) 熵 / KL GAN 运用 vs SRGAN ① AffGAN 实例噪声 ② AffDG ③ AffLL
背景 · 方法 · 实验 · 总结
理论 · §3 · 摊销 MAP 推断

什么是"摊销 MAP 推断"?传统 MAP vs 摊销 MAP

传统 MAP vs 摊销 MAP 对比图
一句话 ▸ 摊销 = 不再对每个 x 单独求 argmax,而是训练一个网络一次学会输出 MAP 解,测试时前向一次直接出图。贝叶斯分解 \( \log p(y|x)=\log p(x|y)+\log p_Y(y)-\log p_X(x) \):后验 = 似然 + 图像先验 − 常数;难点在图像先验 pY一致性约束 Ay=x(本部分逐一展开)。
AffGAN · 摊销 MAP 推断10
扫盲 ② 主题三·线性代数

三个词先讲清:列空间 · 零空间 · 伪逆

列空间/零空间/伪逆 示意图
  • 列空间 Column Space(像 / 值域):矩阵 A 能"打到"的所有方向
  • 零空间 Null Space(核):被 A 压成 0 的方向 —— 沿它走,下采样结果不变
  • 伪逆 A⁺(Moore–Penrose Pseudoinverse):最稳的"反操作",满足 A A⁺A = A
把残差 (I − A⁺A)f 放进零空间,无论 f 输出啥,下采样回去恒等于 x。这就是下一页"一致性被结构强制"的几何根源。
AffGAN · 扫盲:线性代数11
核心创新 · §3.1 · 式(7)

本文最硬核的创新:仿射投影层

\[ g_\theta(x)=\textcolor{#1a4f8a}{\Pi_x^{A}}\,f_\theta(x)=\textcolor{#2f8a5b}{(I-A^{+}A)\,f_\theta(x)}+\textcolor{#1a4f8a}{A^{+}x} \] 残差:落在 A 的零空间,下采样恒为 0  |  基线解:把 LR 直接上采样,保证低频正确
  • 输出经下采样精确还原 x —— 一致性被结构强制,而非靠损失软性鼓励
  • A⁺ 是反卷积/上卷积,深度学习标准操作(注意 A⁺ ≠ Aᵀ)
  • 插到任何 CNN 甚至任何可训练 SR 算法之后
为何重要 ▸ 有了它,约束优化 → 无约束优化,MAP 目标才能进一步化归成"交叉熵最小化"(下一页)。
仿射子空间投影示意图
AffGAN · 仿射投影层12
关键化归 · §3.1 · 式(9)

魔法一步:MAP 推断 = 最小化交叉熵

\[ \operatorname*{argmax}_{\theta}\,\mathbb{E}_{x}\,\log p_Y\!\big(\Pi_x^{A} f_\theta(x)\big)\;=\;\textcolor{#1a4f8a}{\operatorname*{argmin}_{\theta}\,H[\,q_\theta,\,p_Y\,]} \] qθ = 模型输出在随机 LR 上诱导的分布;pY = 真实 HR 图像分布

不再需要成对数据

从"给定 x 对应 y 的监督回归",变成"让重建图像的分布 qθ 去匹配真实图像分布 pY"。

更像生成式建模

问题摇身一变成了无监督 / 生成式任务——这正是能搬出 GAN、去噪、密度模型三种武器的原因。

💡 译者注 ▸ 交叉熵 H[qθ,pY] = 𝔼ŷ~qθ[−log pY(ŷ)]:让模型生成的每张图,在真实图像先验下都尽量"高概率"。但直接算它不可行 → 需要三种近似方法。
AffGAN · MAP→交叉熵13
扫盲 ③ 主题二·信息论

熵 / 交叉熵 / KL:用"编码花几个 bit"来记

用"发送消息要花多少 bit"的直观物理视角,理清这三个概念的数学关系与几何桥梁。
熵/交叉熵/KL 编码示意图
\[ H[q,p]=H[q]+\mathrm{KL}[q\,\|\,p] \] 交叉熵 = 自身熵 + KL 散度
核心推论 ▸ 恒等式 H[q,p] − KL[q‖p] = H[q] 后面会立大功:
• 在最大似然估计(MLE)中,是以真实分布为基准,故最小化交叉熵 ⟺ 最小化 KL 散度;
• 但在本文的 MAP 目标中,第一项是模型诱导分布 qθ,其自身熵并不固定。GAN 实际最小化的 KL 散度与我们想最小化的交叉熵正好差了一个 H[qθ](即"熵奖励",详见第 18 页)。
熵 H[q]
最优编码长度 · Entropy
用基于 q 自身定制的最优编码表,理论上发送 q 分布的消息平均最少需要花的 bit 数。
交叉熵 H[q,p]
错配编码长度 · Cross Entropy
实际符号分布是 q,却错用 p 的编码表来发送消息,导致每个符号平均需要多花的实际 bit 数。
KL 散度 KL[q‖p]
冗余开销/溢价 · KL Divergence
因为错用 p 的编码表而多花的那部分 bit(即 H[q,p] − H[q]),衡量两个分布的差异。
AffGAN · 扫盲:信息论14
方法总览 · §3.2–3.4

最小化交叉熵的三件武器

共同起点:先经仿射投影得到输出分布 qθ,统一目标都是 \( \min_\theta H[q_\theta,\,p_Y] \) 区别只在 "怎么逼近这个交叉熵"
① AffGAN 生成对抗 GAN
机制
训练判别器 D 区分真假,生成器按修正规则更新,近似最小化 KL[qθ‖pY](≈交叉熵)。
关键式
\( D^{*}=\dfrac{p_Y}{p_Y+q_G} \)
额外模块
判别器 Dφ(+ 实例噪声稳定)
实验最优 真实图像上视觉最锐利、最照片级
② AffDG 去噪器引导
机制
贝叶斯最优去噪器 ≈ 估计 ∇ log pY,把梯度按链式法则反传进 SR 网络做梯度上升。
关键式
\( \dfrac{f^{*}(y)-y}{\sigma^{2}}\approx\nabla\log p_Y \)
额外模块
去噪自编码器 DAE(噪声退火)
扩散同源 与当今扩散 / score matching 同一思想
③ AffLL 密度引导
机制
用最大似然训练的显式密度模型当先验,最小化生成样本的负对数似然来引导。
关键式
\( -\log p_{\mathrm{model}}(\hat y) \)
额外模块
PixelCNN + MCGSM 密度模型
最直接基线 更直接,但实测偏模糊
剧透 ▸ 三者都需要"额外训练一个模块"(判别器/去噪器/密度模型)来拿到交叉熵的近似;其中 AffGAN 在高维真实图像上视觉最佳,AffDG/AffLL 偏模糊(§5.3 + 附录 E)。下面逐一展开。
AffGAN · 三种解法15
GAN 的运用 · §3.2 / §2

GAN 基础我们学过——这里怎么用?与 SRGAN 差在哪?

30 秒回顾(已知)

GAN 训练循环图

本文两处改造:① 生成器输入不是噪声 z,而是低清图 x;② 用修正的生成器更新规则,使 GAN 不再最小化 JS,而是 KL[qθ‖pY](≈ 交叉熵 = MAP)。

维度SRGAN(Ledig 2016)本文 AffGAN
一致性 Aŷ=x软约束:靠内容/MSE 损失"鼓励"仿射投影硬保证(误差≈0)
损失构成对抗损失 + VGG 感知损失 + MSE纯对抗(修正规则),无需 VGG/内容损失
训练数据必须成对 LR–HR原则上只需 pY、pX 的样本
理论解释经验性、效果驱动GAN=最小化 KL/交叉熵=MAP 推断(附录 A)
观测噪声假设隐含高斯/拉普拉斯不假设,精确满足观测模型
稳定化技巧常规 GAN trick实例噪声(退火,不引入偏差)
一句话 ▸ SRGAN 是"把 GAN 当感知损失加进 SR";AffGAN 是"把整个 SR 重新推导成 GAN"——并证明这等价于 MAP 推断。本文为 SRGAN 那条经验路线补上了理论依据。
AffGAN · GAN 的运用 vs SRGAN16
方法一 · §3.2

AffGAN:把仿射投影的 SR 函数当作生成器

AffGAN 训练架构图
为什么“投影+GAN”天作之合 ▸ 投影负责一致性(Aŷ=x 恒成立),GAN 负责把输出推向真实图像流形;不需成对数据、不假设观测噪声。对照组 SoftGAN=去掉投影、改软约束 ℓLR=MAE(x,Aŷ)。这为“GAN 用于 SR”(SRGAN)补上了理论依据。
AffGAN · 方法一17
一个有益的副作用 · §3.2

彩蛋:GAN 的"熵奖励"恰好缓解 mode collapse

\[ \textcolor{#1a4f8a}{H[q_\theta,p_Y]}\;-\;\textcolor{#c0563a}{\mathrm{KL}[q_\theta\,\|\,p_Y]}\;=\;\textcolor{#2f8a5b}{H[q_\theta]} \] 我们真正想要的(MAP 目标)  −  GAN 实际最小化的  =  qθ 自身的熵

差了一个 −H[qθ]

GAN 最小化 KL,比"纯 MAP 目标"多奖励了输出多样性:不让所有样本塌缩到同一个点。

因此 AffGAN 偏好

高熵、更多样的近似 MAP 解;§5.6 还指出它对坐标变换更具韧性(H[qθ] 同步变换)。

💡 译者注 ▸ 我们真正想最小化的是交叉熵;GAN 实际最小化 KL,两者相差 qθ 的熵。这意味着 GAN 在逼近 MAP 的同时额外奖励多样性——一个有益的副作用。
AffGAN · 交叉熵 vs KL18
稳定 GAN 的技巧 · §3.2.1 · Figure 6

GAN 为何不稳定?实例噪声来救场

Figure 6 实例噪声
Figure 6:(a) 标准——两分布几乎不重叠,无数个判别器都能分开它们;(b) 单边标签平滑——移动了决策边界,但 pY 仍覆盖 qθ 无支撑的区域;(c) 实例噪声——拓宽两个分布的支撑集,且不使最优判别器产生偏差

病因:pY 与 qθ 都是高度集中、支撑集几乎不重叠的分布 → 存在一大批"近似最优判别器",每个给 G 的梯度都不同 → 训练发散。

\[ d_\sigma=\mathrm{KL}[\,p_\sigma \ast q_\theta\,\|\,p_\sigma \ast p_Y\,] \] 给真假样本都加高斯噪声,σ 随训练退火到 0
类比 ▸ 两条几乎不重叠的细线,判别器能用无数种方式分开它们;给两条线都"吹"一层高斯噪声,它们变胖、重叠,最优判别器变唯一、梯度稳定。优于单边标签平滑(不引入偏差)。
AffGAN · 实例噪声19
扫盲 ⑤ 主题四·score 与去噪

一个关键洞见:去噪 = 学习对数密度的梯度

去噪=对数密度梯度 示意图
\[ \frac{f^{*}(y)-y}{\sigma^{2}}\;\approx\;\nabla_{y}\log p_Y(y) \] 贝叶斯最优去噪器隐含了对数密度的梯度(式 12)
  • 训练一个去噪器,"去噪输出 − 带噪输入"就近似指向 ∇ log pY
  • 于是无需显式知道先验 pY,也能拿到"往更真实方向走"的梯度
  • 正是当今扩散模型 / score matching 的同源思想(Vincent 2011)
AffGAN · 扫盲:去噪=梯度20
方法二 · §3.3

AffDG:用去噪器的梯度反传训练 SR 网络

AffDG 去噪引导流程图
训练技巧 ▸ 噪声 σ 从大到小退火:早期梯度方向粗但覆盖广,后期贴近数据流形更精确。对照组 SoftDG=去投影。据作者所知,这是首次把去噪器输出显式反传去训练另一个网络。
AffGAN · 方法二 AffDG21
方法三 · §3.4

AffLL:用显式密度模型当先验来引导

  • 最直接的基线:用最大似然给 pY 拟合一个可处理却强大的密度模型
  • 用"相对该生成模型的交叉熵"近似 MAP 目标
  • 模型 = 类 PixelCNN 结构 + 连续可微的 MCGSM 似然(Theis 等 2012)
  • LL = 由密度模型的对数似然(log-likelihood)引导

和 Pixel Recursive SR 的接口

这里正是与我们旧知识的连接点:PixelCNN 用链式法则 j log p(yj|y<j) 逐像素建模密度。

区别:AffLL 不逐像素采样,而是把这个密度当"先验打分器",去推动前馈 SR 网络的输出。

伏笔 ▸ 原始 PixelCNN 的类别分布不可微,无法做基于梯度的优化,所以本文改用可微的 MCGSM。实测 AffLL 偏模糊(见后)。
AffGAN · 方法三 AffLL22
PART 3 / 4
3

实验

Experiments — 从二维玩具一路走到真实图像
瑞士卷 · Table 1 仿射投影概念验证 · Fig 2 草地纹理 · Fig 3 CelebA 人脸 · Fig 4 ImageNet 自然图像 · Fig 5
背景 · 方法 · 实验 · 总结
实验 ① · §5.1 · Table 1

瑞士卷验证:AffGAN/AffDG 真的在最小化交叉熵

方法H[qθ, pY]MSE(x, Aŷ)
MAP(暴力求解)3.15
MSE9.101.25·10⁻²
MAE6.304.04·10⁻²
AffGAN4.100.0
SoftGAN4.258.87·10⁻²
AffDG3.810.0
SoftDG4.191.01·10⁻¹
  • AffGAN / AffDG 的交叉熵接近最优 MAP 解(3.15)
  • MSE / MAE 差得多——因为它们根本不最小化交叉熵
  • 仿射投影模型的一致性误差 恰好为 0;软约束模型只能近似
  • 而且 Aff(投影)普遍优于 Soft(软约束)
回到 Figure 1(b) ▸ AffGAN/AffDG 的曲线贴住后验众数,MSE/MAE 跑进低概率区 —— 表格用数字印证了那张图。
AffGAN · 实验:瑞士卷24
实验 ② · §5.2 · Figure 2

概念验证:仿射投影不会损害 SR 性能

Figure 2 仿射投影概念验证
Figure 2(CelebA,MSE 目标):(a) HR 输出与真值的 MSE;(b) SSIM;(c) LR 空间一致性 MSE(x, Aŷ);(d) 学到的下采样核 A(上)与上采样核 A⁺(下)。图例二元组:(F固定/T可训练投影, T已训练/R随机初始化)。
  • 带投影的网络初始损失更低(低频已对齐)、训练更快
  • 以 MSE / SSIM 衡量,往往还能找到更好的解(a, b)
  • 关键:A⁺ 要初始化成正确的伪逆;固定或可训练都行
  • (c) 精确投影把一致性误差压到≈ 0(数值精度内)
结论 ▸ 给架构加这个约束有百利而无一害——既保证一致性,又不牺牲(反而常提升)性能。
AffGAN · 实验:仿射投影25
实验 ③ · §5.3 · Figure 3

草地纹理 4×:AffGAN 最锐利

Figure 3 草地纹理超分
Figure 3:草地纹理 4× SR。上排为 LR 输入 x、真值 y 及各模型输出;下排为局部放大。Affinit(第三栏)= 未训练的投影模型输出,即用 A⁺ 上采样的基线解。
看点 ▸ AffGAN 显著比略糊的 AffMSE 锐利。重建并非逐像素完美,但统计属性正确,人眼一看就是草。
对照 ▸ AffDG 与 AffLL 都很模糊(多种优化都救不回来)→ 作者据此聚焦 AffGAN,其余放进附录 E。
AffGAN · 实验:草地纹理26
实验 ④ · §5.4 · Figure 4 + Table 2

CelebA 人脸 4×:锐利度 vs PSNR 的权衡

Figure 4 CelebA 人脸
Figure 4:CelebA 人脸 4× SR。MSE 输出过度平滑;AffGAN 与 SoftGAN 都明显更锐利。AffGAN 比 SoftGAN 略锐,但高频噪声略多;SoftGAN 还有颜色漂移。
SSIMPSNRAŷ↔x
MSE0.9026.308·10⁻⁵
AffMSE0.9126.531.6·10⁻¹⁰
SoftGAN0.7621.112.3·10⁻³
AffGAN0.8123.029.1·10⁻¹⁰
要点 ▸ PSNR/SSIM 上 MSE 反而最高——再次说明这些指标偏爱模糊。但人眼更爱 AffGAN。一致性上 Aff ≫ Soft
AffGAN · 实验:CelebA27
实验 ⑤ · §5.5 · Figure 5

ImageNet 自然图像:AffGAN 会"梦出"合理细节

Figure 5 ImageNet 自然图像
Figure 5:ImageNet 上 AffGAN 把 32×32 做 4× SR 到 128×128。上排 AffGAN 输出、中排真值 y、下排输入 x。
  • 大多数图像锐利、与 LR 输入对应良好
  • 仍带有 GAN 常见的高频噪声,与真值可区分
趣点 ▸ 第三列:蛇被超分成了"水"——显然错误,但在图像先验下"水"概率更高,说明 GAN 在"梦出"合理数据。这恰是 MAP/生成式方法的特性。
AffGAN · 实验:ImageNet28
PART 4 / 4
4

总结与讨论

Discussion & Conclusion — 批评、延伸与回顾
高维"众数非典型"批评 AffDG / AffLL 补充 · Fig 7 摊销变分推断 · Fig 8 总结主线 Q & A
背景 · 方法 · 实验 · 总结
批评与反思 · §5.6

冷静一下:高维下"众数未必典型"

高维高斯肥皂泡测度集中示意图
  • 众数依赖表示:换个色彩空间/特征空间再做 MAP,答案可能就变了
  • 测度集中:d 维高斯典型样本范数≈√d,而众数范数=0 → 众数高度非典型
  • 所以纯 MAP 的"高概率"≠"看起来真实"
作者亲述 ▸ "肥皂泡"比喻正出自本文作者 Ferenc Huszár 的博客。这为把 AffGAN 扩展成从后验采样(变分推断)埋下伏笔。
AffGAN · 批评与反思30
补充结果 · 附录 E · Figure 7

为何 AffDG / AffLL 收敛却模糊

Figure 7 AffDG AffLL 训练曲线
Figure 7:草地纹理上 AffDG 与 AffLL 的 PSNR / SSIM 训练曲线。模型确实在收敛;AffDG 的阶梯状行为源于持续切换到噪声水平更低的 DAE。
  • 两模型都会收敛,但生成的图像很模糊(见 Fig 3)
  • AffDG:高噪 σ 梯度方向粗但覆盖广,低噪 σ 梯度准但范围窄 → 需退火,仍易发散
  • AffLL:精确密度模型在数据流形附近过于陡峭,早期学习极难
  • 密度模型本身已不错(−4.10 bits/dim),但不够精确到能给出好的分数
结论 ▸ 这解释了为何在高维真实图像上,AffGAN 仍是赢家
AffGAN · 补充:AffDG/AffLL31
未来方向 · 附录 F · Figure 8

把 AffGAN 扩展为摊销变分推断

Figure 8 AffGAN ImageNet 更多结果
Figure 8:ImageNet 上 AffGAN 4× SR(32×32→128×128)更多样例。上排 AffGAN 输出、中排真值 y、下排输入 x。

给生成器额外输入噪声变量 z,让它能对同一个 x 产生多个合理 HR 解:
ŷ = ΠxA fθ(x, z)

\[ \operatorname*{argmin}_{\theta}\,\mathrm{KL}[q_{Y;\theta}\,\|\,p_Y]=\operatorname*{argmin}_{\theta}\,\mathbb{E}_{x}\,\mathrm{KL}[q_{Y\mid X;\theta}\,\|\,p_{Y\mid X}] \] 随机版 AffGAN ≈ 在执行摊销变分推断(如 VAE)
闭环 ▸ 这正好回应 §5.6 的批评——从后验采样而非死磕单个众数,与开头 Pixel Recursive SR 的"采样"思想殊途同归
AffGAN · 变分推断视角32
总结 · §6

一页回顾:MAP → 交叉熵 → 投影 → GAN

AffGAN 全文主线信息图
与 PRSR 的呼应 ▸ PRSR 显式建分布并逐像素采样;AffGAN 不显式建分布、前馈一次出图找众数。§5.6 + 附录 F 又把两条路汇合到“从后验采样”。
AffGAN · 总结33
Amortised MAP Inference for Image Super-Resolution · ICLR 2017

谢谢  ·  Q&A

讨论留给大家:
· 仿射投影层能否直接接到我们现有的 SR / PRSR 模型上?
· "众数 vs 采样"——在你的任务里更想要哪一个?
· 实例噪声与扩散模型的加噪退火,是不是同一回事?
主线回顾:MAP → 交叉熵 → 仿射投影 → GAN