发表于 ICLR 2017 · Oral　|　组内论文精读

用于图像超分辨率的
摊销 MAP 推断

Amortised MAP Inference for Image Super-Resolution　·　AffGAN

Casper Kaae Sønderby, Jose Caballero, Lucas Theis,
Wenzhe Shi & Ferenc Huszár

Twitter（伦敦） · 哥本哈根大学

主线：MAP　→　交叉熵　→　仿射投影　→　GAN

全文总览

四个 Part，一条主线：MAP → 交叉熵 → 投影 → GAN

① MAP 推断
为什么要"取众数"

→

② 仿射投影
本文核心架构创新

→

③ 交叉熵
MAP 目标的化归

→

④ 三种解法
GAN / 去噪 / 密度

Part 1 · 背景

从 SR 多解性出发，先讲清"点估计"，再引出 MAP 取众数 的动机（含与 PRSR 的区别）。

Part 2 · 方法

仿射投影层锁住有效解 → MAP 化归为交叉熵 → 三法 GAN/去噪/密度求解。

Part 3 · 实验

瑞士卷 → 仿射投影验证 → 草地 → CelebA → ImageNet，证明 AffGAN 视觉最优。

Part 4 · 总结

高维"众数非典型"的反思；扩展为摊销变分推断（从后验采样）的未来方向。

AffGAN · 全文总览02

PART 1 / 4

背景与动机

Background & Motivation　—　为什么放弃 MSE、转向 MAP

与 Pixel Recursive SR 的区别什么是点估计点估计三兄弟（mean/median/mode） Figure 1 · 瑞士卷为什么 MAP 以前少用

背景 · 方法 · 实验 · 总结

从我们已知的出发

先接上旧知识：和 Pixel Recursive SR 有何不同？

一句话区别 ▸ 两者都在和"图像先验/概率分布"打交道；但 PRSR 显式建模分布并采样，AffGAN 不显式建分布，而是把找众数变成训练一个生成器。论文 §5.6 还反过来讨论"何时该改用采样"——与 PRSR 殊途同归。

AffGAN · 用于图像超分辨率的摊销 MAP 推断04

扫盲 ① · 预备　什么是"点估计"

先问一句：什么是"点估计 point estimation"？

贝叶斯给我们的是一整条分布，但最终只能输出一张确定的图——必须从分布里挑一个"代表点"。

完整贝叶斯：给出整条后验 p(y|x)——所有可能解 + 各自概率
但落地要一个确定输出 → 用单个值/向量去概括整条分布，这就是 点估计
"挑哪个点"有不同策略 → 下一页的 均值 / 中位数 / 众数

和 PRSR 对照 ▸ PRSR 直接采样整条分布、给多样解；本文走点估计，只取一个代表点（MAP）。两条路在 §5.6 又会重新交汇。

AffGAN · 何为点估计05

扫盲 ①　主题一 · 贝叶斯点估计（MAP / MLE / 后验均值）

点估计"三兄弟"：均值 mean / 中位数 median / 众数 mode

同一条后验分布 posterior p(y|x)，你选的损失函数不同，"贝叶斯最优答案"就落在不同位置。

损失函数 Loss	贝叶斯最优解	特点
平方损失 · MSE	后验均值 mean	易糊
绝对损失 · MAE	后验中位数 median	较稳健
0–1 损失	后验众数 mode = MAP	最锐利

关键 ▸ 三者都是合法的"最优解"，差别只在损失函数。SR 里多个解并存：均值把它们抹平→糊；中位数稍好；只有众数 mode 落在概率最高处→最锐利、最可信。这正是本文选 MAP 的理由。

MAP

Maximum a Posteriori · 最大后验

argmax_y p(y|x)，取后验最大的点（= 众数 mode）。本文的目标。

MLE

Maximum Likelihood Estimation · 最大似然

只看似然 p(x|y)、不含先验；= 无信息先验下的 MAP。

后验 Posterior

posterior ∝ likelihood × prior

p(y|x) ∝ p(x|y) · p(y)。MAP 就在它上面取峰值。

mode / mean / median

众数 / 均值 / 中位数

分布的"峰值 / 重心 / 中点"，分别是 MAP / MSE / MAE 的最优解。

AffGAN · 扫盲：点估计06

核心图 · Figure 1 ＋ Table 1

不是"唯一还原"，而是在满足约束的候选里挑最像真实分布的点

低清 x 给的不是答案，而是一个约束；好解还要落在真实图像分布的高概率区。

Figure 1 瑞士卷玩具示例 — Figure 1：HR 数据 y=[y₁,y₂]~瑞士卷（灰，越深越像真实）；下采样 x=(y₁+y₂)/2。(a) 给定 x=0.5，有效解落在橙线 y₂=1−y₁，红色阴影=后验 p(y|x=0.5)。(b) 扫 x∈[−8,8] 各模型输出＋去噪梯度场。
**注意：图中彩色点是各方法对不同 x 的 SR 输出，不是瑞士卷数据点**——图 a 蓝点 = MAP；图 b 红 = MSE／绿 = MAE／蓝 = AffGAN／紫 = AffDG（同是蓝点，a 是 MAP、b 是 AffGAN）。

① 约束：Ay=x → 橙线 → ② 后验：先验沿橙线切片 → ③ 选点：mean / median / mode → ④ 结果：Table 1

Table 1 · 直接估计的交叉熵（10 次随机初始化平均）

方法	\( H[q_\theta,p_Y] \) 越低越像真实	\( \ell_{\mathrm{MSE}}(x,A\hat y) \) 一致性
MAP（暴力解）	3.15	—
MSE	9.10	1.25·10⁻²
MAE	6.30	4.04·10⁻²
AffGAN	4.10	0.0
SoftGAN	4.25	8.87·10⁻²
AffDG	3.81	0.0
SoftDG	4.19	1.01·10⁻¹

读表 ▸ AffGAN／AffDG 的交叉熵 ≈ MAP（3.15）→ 确实落在高概率区；MSE 9.10、MAE 6.30 明显跑偏。一致性 \( \ell_{\mathrm{MSE}} \)：Aff（投影）= 0 严格满足，Soft（软约束）≠ 0。

AffGAN · Figure 1 ＋ Table 107

背景 · 一个自然的疑问

MAP 更合理，为什么以前很少用？

不是没人知道 MAP 好，而是它有两道坎；本文把它做成了可训练的前馈模型。

MAP 以前的两道坎

①

要知道"真实图像长什么样"：MAP 需要图像先验 p_Y(y)。可它是几十万～百万维的分布，极难建模——你不容易知道哪个 y 概率最大。

②

还要做高维优化：即便有先验，也要解 \( \operatorname*{argmax}_y p_Y(y)\ \text{s.t.}\ Ay=x \)——非凸、多峰，每张图都要搜索，慢。

所以大家用 MSE ▸ 简单、稳定、好训练、收敛快，而且 PSNR 高（PSNR 与 MSE 强相关）。代价是把多种纹理平均→糊。

本文怎么破这两道坎

①

摊销：训练网络 f_θ 代替"逐样本优化" → 前馈一次出图（破"慢"）。

②

仿射投影层：把约束 Ay=x 变成结构强制（破"约束"）。

③

GAN / 去噪梯度：把输出推向高概率区，免显式建模 p_Y（破"先验"）。

三招 ▸ 正好对应下面 Part 2 的展开顺序：摊销 → 仿射投影 → 交叉熵 / 三法。

一句话 ▸ 不是不知道 MAP 更合理，而是过去先验难建、优化难解；本文用摊销 + 投影 + GAN/去噪把 MAP 做成了可训练的前馈 SR。（MAP 只取一个众数、不表达不确定性——想要多样解见 §5.6 / 附录 F 的"采样"扩展。）

AffGAN · 为什么以前少用 MAP08

PART 2 / 4

方法

Method　—　仿射投影　·　交叉熵化归　·　三种解法

摊销 MAP（一次训练）零空间 / 伪逆仿射投影层 (式7) MAP → 交叉熵 (式9) 熵 / KL GAN 运用 vs SRGAN ① AffGAN 实例噪声 ② AffDG ③ AffLL

背景 · 方法 · 实验 · 总结

理论 · §3 · 摊销 MAP 推断

什么是"摊销 MAP 推断"？传统 MAP vs 摊销 MAP

一句话 ▸ 摊销 = 不再对每个 x 单独求 argmax，而是训练一个网络一次学会输出 MAP 解，测试时前向一次直接出图。贝叶斯分解 \( \log p(y|x)=\log p(x|y)+\log p_Y(y)-\log p_X(x) \)：后验 = 似然＋图像先验 − 常数；难点在图像先验 p_Y 与一致性约束 Ay=x（本部分逐一展开）。

AffGAN · 摊销 MAP 推断10

扫盲 ②　主题三·线性代数

三个词先讲清：列空间 · 零空间 · 伪逆

列空间 Column Space（像 / 值域）：矩阵 A 能"打到"的所有方向
零空间 Null Space（核）：被 A 压成 0 的方向 —— 沿它走，下采样结果不变
伪逆 A⁺（Moore–Penrose Pseudoinverse）：最稳的"反操作"，满足 A A⁺A = A

把残差 (I − A⁺A)f 放进零空间，无论 f 输出啥，下采样回去恒等于 x。这就是下一页"一致性被结构强制"的几何根源。

AffGAN · 扫盲：线性代数11

核心创新 · §3.1 · 式(7)

本文最硬核的创新：仿射投影层

\[ g_\theta(x)=\textcolor{#1a4f8a}{\Pi_x^{A}}\,f_\theta(x)=\textcolor{#2f8a5b}{(I-A^{+}A)\,f_\theta(x)}+\textcolor{#1a4f8a}{A^{+}x} \] 残差：落在 A 的零空间，下采样恒为 0 | 基线解：把 LR 直接上采样，保证低频正确

输出经下采样精确还原 x —— 一致性被结构强制，而非靠损失软性鼓励
A⁺ 是反卷积/上卷积，深度学习标准操作（注意 A⁺ ≠ Aᵀ）
可插到任何 CNN 甚至任何可训练 SR 算法之后

为何重要 ▸ 有了它，约束优化 → 无约束优化，MAP 目标才能进一步化归成"交叉熵最小化"（下一页）。

AffGAN · 仿射投影层12

关键化归 · §3.1 · 式(9)

魔法一步：MAP 推断 = 最小化交叉熵

\[ \operatorname*{argmax}_{\theta}\,\mathbb{E}_{x}\,\log p_Y\!\big(\Pi_x^{A} f_\theta(x)\big)\;=\;\textcolor{#1a4f8a}{\operatorname*{argmin}_{\theta}\,H[\,q_\theta,\,p_Y\,]} \] q_θ = 模型输出在随机 LR 上诱导的分布；p_Y = 真实 HR 图像分布

不再需要成对数据

从"给定 x 对应 y 的监督回归"，变成"让重建图像的分布 q_θ 去匹配真实图像分布 p_Y"。

更像生成式建模

问题摇身一变成了无监督 / 生成式任务——这正是能搬出 GAN、去噪、密度模型三种武器的原因。

💡 译者注 ▸ 交叉熵 H[q_θ,p_Y] = 𝔼_{ŷ~q_θ}[−log p_Y(ŷ)]：让模型生成的每张图，在真实图像先验下都尽量"高概率"。但直接算它不可行 → 需要三种近似方法。

AffGAN · MAP→交叉熵13

扫盲 ③　主题二·信息论

熵 / 交叉熵 / KL：用"编码花几个 bit"来记

用"发送消息要花多少 bit"的直观物理视角，理清这三个概念的数学关系与几何桥梁。

\[ H[q,p]=H[q]+\mathrm{KL}[q\,\|\,p] \] 交叉熵 = 自身熵 + KL 散度

核心推论 ▸ 恒等式 H[q,p] − KL[q‖p] = H[q] 后面会立大功：
• 在最大似然估计（MLE）中，是以真实分布为基准，故最小化交叉熵 ⟺ 最小化 KL 散度；
• 但在本文的 MAP 目标中，第一项是模型诱导分布 q_θ，其自身熵并不固定。GAN 实际最小化的 KL 散度与我们想最小化的交叉熵正好差了一个 H[q_θ]（即"熵奖励"，详见第 18 页）。

熵 H[q]

最优编码长度 · Entropy

用基于 q 自身定制的最优编码表，理论上发送 q 分布的消息平均最少需要花的 bit 数。

交叉熵 H[q,p]

错配编码长度 · Cross Entropy

实际符号分布是 q，却错用 p 的编码表来发送消息，导致每个符号平均需要多花的实际 bit 数。

KL 散度 KL[q‖p]

冗余开销/溢价 · KL Divergence

因为错用 p 的编码表而多花的那部分 bit（即 H[q,p] − H[q]），衡量两个分布的差异。

AffGAN · 扫盲：信息论14

方法总览 · §3.2–3.4

最小化交叉熵的三件武器

共同起点：先经仿射投影得到输出分布 q_θ，统一目标都是 \( \min_\theta H[q_\theta,\,p_Y] \) 区别只在 "怎么逼近这个交叉熵"

① AffGAN 生成对抗 GAN

机制

训练判别器 D 区分真假，生成器按修正规则更新，近似最小化 KL[q_θ‖p_Y]（≈交叉熵）。

关键式

\( D^{*}=\dfrac{p_Y}{p_Y+q_G} \)

额外模块

判别器 D_φ（+ 实例噪声稳定）

实验最优真实图像上视觉最锐利、最照片级

② AffDG 去噪器引导

机制

贝叶斯最优去噪器 ≈ 估计 ∇ log p_Y，把梯度按链式法则反传进 SR 网络做梯度上升。

关键式

\( \dfrac{f^{*}(y)-y}{\sigma^{2}}\approx\nabla\log p_Y \)

额外模块

去噪自编码器 DAE（噪声退火）

扩散同源与当今扩散 / score matching 同一思想

③ AffLL 密度引导

机制

用最大似然训练的显式密度模型当先验，最小化生成样本的负对数似然来引导。

关键式

\( -\log p_{\mathrm{model}}(\hat y) \)

额外模块

PixelCNN + MCGSM 密度模型

最直接基线更直接，但实测偏模糊

剧透 ▸ 三者都需要"额外训练一个模块"（判别器／去噪器／密度模型）来拿到交叉熵的近似；其中 AffGAN 在高维真实图像上视觉最佳，AffDG／AffLL 偏模糊（§5.3 + 附录 E）。下面逐一展开。

AffGAN · 三种解法15

GAN 的运用 · §3.2 / §2

GAN 基础我们学过——这里怎么用？与 SRGAN 差在哪？

30 秒回顾（已知）

本文两处改造：① 生成器输入不是噪声 z，而是低清图 x；② 用修正的生成器更新规则，使 GAN 不再最小化 JS，而是 KL[q_θ‖p_Y]（≈ 交叉熵 = MAP）。

维度	SRGAN（Ledig 2016）	本文 AffGAN
一致性 Aŷ=x	软约束：靠内容/MSE 损失"鼓励"	仿射投影硬保证（误差≈0）
损失构成	对抗损失 + VGG 感知损失 + MSE	纯对抗（修正规则），无需 VGG/内容损失
训练数据	必须成对 LR–HR	原则上只需 p_Y、p_X 的样本
理论解释	经验性、效果驱动	GAN=最小化 KL/交叉熵=MAP 推断（附录 A）
观测噪声假设	隐含高斯/拉普拉斯	不假设，精确满足观测模型
稳定化技巧	常规 GAN trick	实例噪声（退火，不引入偏差）

一句话 ▸ SRGAN 是"把 GAN 当感知损失加进 SR"；AffGAN 是"把整个 SR 重新推导成 GAN"——并证明这等价于 MAP 推断。本文为 SRGAN 那条经验路线补上了理论依据。

AffGAN · GAN 的运用 vs SRGAN16

方法一 · §3.2

AffGAN：把仿射投影的 SR 函数当作生成器

为什么“投影+GAN”天作之合 ▸ 投影负责一致性（Aŷ=x 恒成立），GAN 负责把输出推向真实图像流形；不需成对数据、不假设观测噪声。对照组 SoftGAN=去掉投影、改软约束 ℓ_LR=MAE(x,Aŷ)。这为“GAN 用于 SR”（SRGAN）补上了理论依据。

AffGAN · 方法一17

一个有益的副作用 · §3.2

彩蛋：GAN 的"熵奖励"恰好缓解 mode collapse

\[ \textcolor{#1a4f8a}{H[q_\theta,p_Y]}\;-\;\textcolor{#c0563a}{\mathrm{KL}[q_\theta\,\|\,p_Y]}\;=\;\textcolor{#2f8a5b}{H[q_\theta]} \] 我们真正想要的（MAP 目标） − GAN 实际最小化的 = q_θ 自身的熵

差了一个 −H[q_θ]

GAN 最小化 KL，比"纯 MAP 目标"多奖励了输出多样性：不让所有样本塌缩到同一个点。

因此 AffGAN 偏好

更高熵、更多样的近似 MAP 解；§5.6 还指出它对坐标变换更具韧性（H[q_θ] 同步变换）。

💡 译者注 ▸ 我们真正想最小化的是交叉熵；GAN 实际最小化 KL，两者相差 q_θ 的熵。这意味着 GAN 在逼近 MAP 的同时额外奖励多样性——一个有益的副作用。

AffGAN · 交叉熵 vs KL18

稳定 GAN 的技巧 · §3.2.1 · Figure 6

GAN 为何不稳定？实例噪声来救场

Figure 6 实例噪声 — Figure 6：(a) 标准——两分布几乎不重叠，无数个判别器都能分开它们；(b) 单边标签平滑——移动了决策边界，但 p_Y 仍覆盖 q_θ 无支撑的区域；(c) 实例噪声——拓宽两个分布的支撑集，且**不使最优判别器产生偏差**。

病因：p_Y 与 q_θ 都是高度集中、支撑集几乎不重叠的分布 → 存在一大批"近似最优判别器"，每个给 G 的梯度都不同 → 训练发散。

\[ d_\sigma=\mathrm{KL}[\,p_\sigma \ast q_\theta\,\|\,p_\sigma \ast p_Y\,] \] 给真假样本都加高斯噪声，σ 随训练退火到 0

类比 ▸ 两条几乎不重叠的细线，判别器能用无数种方式分开它们；给两条线都"吹"一层高斯噪声，它们变胖、重叠，最优判别器变唯一、梯度稳定。优于单边标签平滑（不引入偏差）。

AffGAN · 实例噪声19

扫盲 ⑤　主题四·score 与去噪

一个关键洞见：去噪 = 学习对数密度的梯度

\[ \frac{f^{*}(y)-y}{\sigma^{2}}\;\approx\;\nabla_{y}\log p_Y(y) \] 贝叶斯最优去噪器隐含了对数密度的梯度（式 12）

训练一个去噪器，"去噪输出 − 带噪输入"就近似指向 ∇ log p_Y
于是无需显式知道先验 p_Y，也能拿到"往更真实方向走"的梯度
正是当今扩散模型 / score matching 的同源思想（Vincent 2011）

AffGAN · 扫盲：去噪=梯度20

方法二 · §3.3

AffDG：用去噪器的梯度反传训练 SR 网络

训练技巧 ▸ 噪声 σ 从大到小退火：早期梯度方向粗但覆盖广，后期贴近数据流形更精确。对照组 SoftDG=去投影。据作者所知，这是首次把去噪器输出显式反传去训练另一个网络。

AffGAN · 方法二 AffDG21

方法三 · §3.4

AffLL：用显式密度模型当先验来引导

最直接的基线：用最大似然给 p_Y 拟合一个可处理却强大的密度模型
用"相对该生成模型的交叉熵"近似 MAP 目标
模型 = 类 PixelCNN 结构 + 连续可微的 MCGSM 似然（Theis 等 2012）
LL = 由密度模型的对数似然（log-likelihood）引导

和 Pixel Recursive SR 的接口

这里正是与我们旧知识的连接点：PixelCNN 用链式法则 ∑_j log p(y_j|y_<j) 逐像素建模密度。

区别：AffLL 不逐像素采样，而是把这个密度当"先验打分器"，去推动前馈 SR 网络的输出。

伏笔 ▸ 原始 PixelCNN 的类别分布不可微，无法做基于梯度的优化，所以本文改用可微的 MCGSM。实测 AffLL 偏模糊（见后）。

AffGAN · 方法三 AffLL22

PART 3 / 4

实验

Experiments　—　从二维玩具一路走到真实图像

瑞士卷 · Table 1 仿射投影概念验证 · Fig 2 草地纹理 · Fig 3 CelebA 人脸 · Fig 4 ImageNet 自然图像 · Fig 5

背景 · 方法 · 实验 · 总结

实验 ① · §5.1 · Table 1

瑞士卷验证：AffGAN/AffDG 真的在最小化交叉熵

方法	H[q_θ, p_Y]	ℓ_MSE(x, Aŷ)
MAP（暴力求解）	3.15	—
MSE	9.10	1.25·10⁻²
MAE	6.30	4.04·10⁻²
AffGAN	4.10	0.0
SoftGAN	4.25	8.87·10⁻²
AffDG	3.81	0.0
SoftDG	4.19	1.01·10⁻¹

AffGAN / AffDG 的交叉熵接近最优 MAP 解（3.15）
MSE / MAE 差得多——因为它们根本不最小化交叉熵
仿射投影模型的一致性误差 恰好为 0；软约束模型只能近似
而且 Aff（投影）普遍优于 Soft（软约束）

回到 Figure 1(b) ▸ AffGAN/AffDG 的曲线贴住后验众数，MSE/MAE 跑进低概率区 —— 表格用数字印证了那张图。

AffGAN · 实验：瑞士卷24

实验 ② · §5.2 · Figure 2

概念验证：仿射投影不会损害 SR 性能

Figure 2 仿射投影概念验证 — Figure 2（CelebA，MSE 目标）：(a) HR 输出与真值的 MSE；(b) SSIM；(c) LR 空间一致性 MSE(x, Aŷ)；(d) 学到的下采样核 A（上）与上采样核 A⁺（下）。图例二元组：(F固定/T可训练投影, T已训练/R随机初始化)。

带投影的网络初始损失更低（低频已对齐）、训练更快
以 MSE / SSIM 衡量，往往还能找到更好的解（a, b）
关键：A⁺ 要初始化成正确的伪逆；固定或可训练都行
(c) 精确投影把一致性误差压到≈ 0（数值精度内）

结论 ▸ 给架构加这个约束有百利而无一害——既保证一致性，又不牺牲（反而常提升）性能。

AffGAN · 实验：仿射投影25

实验 ③ · §5.3 · Figure 3

草地纹理 4×：AffGAN 最锐利

Figure 3 草地纹理超分 — Figure 3：草地纹理 4× SR。上排为 LR 输入 x、真值 y 及各模型输出；下排为局部放大。Aff_init（第三栏）= 未训练的投影模型输出，即用 A⁺ 上采样的基线解。

看点 ▸ AffGAN 显著比略糊的 AffMSE 锐利。重建并非逐像素完美，但统计属性正确，人眼一看就是草。

对照 ▸ AffDG 与 AffLL 都很模糊（多种优化都救不回来）→ 作者据此聚焦 AffGAN，其余放进附录 E。

AffGAN · 实验：草地纹理26

实验 ④ · §5.4 · Figure 4 + Table 2

CelebA 人脸 4×：锐利度 vs PSNR 的权衡

Figure 4 CelebA 人脸 — Figure 4：CelebA 人脸 4× SR。MSE 输出过度平滑；AffGAN 与 SoftGAN 都明显更锐利。AffGAN 比 SoftGAN 略锐，但高频噪声略多；SoftGAN 还有颜色漂移。

	SSIM	PSNR	Aŷ↔x
MSE	0.90	26.30	8·10⁻⁵
AffMSE	0.91	26.53	1.6·10⁻¹⁰
SoftGAN	0.76	21.11	2.3·10⁻³
AffGAN	0.81	23.02	9.1·10⁻¹⁰

要点 ▸ PSNR/SSIM 上 MSE 反而最高——再次说明这些指标偏爱模糊。但人眼更爱 AffGAN。一致性上 Aff ≫ Soft。

AffGAN · 实验：CelebA27

实验 ⑤ · §5.5 · Figure 5

ImageNet 自然图像：AffGAN 会"梦出"合理细节

Figure 5 ImageNet 自然图像 — Figure 5：ImageNet 上 AffGAN 把 32×32 做 4× SR 到 128×128。上排 AffGAN 输出、中排真值 y、下排输入 x。

大多数图像锐利、与 LR 输入对应良好
仍带有 GAN 常见的高频噪声，与真值可区分

趣点 ▸ 第三列：蛇被超分成了"水"——显然错误，但在图像先验下"水"概率更高，说明 GAN 在"梦出"合理数据。这恰是 MAP/生成式方法的特性。

AffGAN · 实验：ImageNet28

PART 4 / 4

总结与讨论

Discussion & Conclusion　—　批评、延伸与回顾

高维"众数非典型"批评 AffDG / AffLL 补充 · Fig 7 摊销变分推断 · Fig 8 总结主线 Q & A

背景 · 方法 · 实验 · 总结

批评与反思 · §5.6

冷静一下：高维下"众数未必典型"

众数依赖表示：换个色彩空间/特征空间再做 MAP，答案可能就变了
测度集中：d 维高斯典型样本范数≈√d，而众数范数=0 → 众数高度非典型
所以纯 MAP 的"高概率"≠"看起来真实"

作者亲述 ▸ "肥皂泡"比喻正出自本文作者 Ferenc Huszár 的博客。这为把 AffGAN 扩展成从后验采样（变分推断）埋下伏笔。

AffGAN · 批评与反思30

补充结果 · 附录 E · Figure 7

为何 AffDG / AffLL 收敛却模糊？

Figure 7 AffDG AffLL 训练曲线 — Figure 7：草地纹理上 AffDG 与 AffLL 的 PSNR / SSIM 训练曲线。模型确实在收敛；AffDG 的**阶梯状**行为源于持续切换到噪声水平更低的 DAE。

两模型都会收敛，但生成的图像很模糊（见 Fig 3）
AffDG：高噪 σ 梯度方向粗但覆盖广，低噪 σ 梯度准但范围窄 → 需退火，仍易发散
AffLL：精确密度模型在数据流形附近过于陡峭，早期学习极难
密度模型本身已不错（−4.10 bits/dim），但不够精确到能给出好的分数

结论 ▸ 这解释了为何在高维真实图像上，AffGAN 仍是赢家。

AffGAN · 补充：AffDG/AffLL31

未来方向 · 附录 F · Figure 8

把 AffGAN 扩展为摊销变分推断

Figure 8 AffGAN ImageNet 更多结果 — Figure 8：ImageNet 上 AffGAN 4× SR（32×32→128×128）更多样例。上排 AffGAN 输出、中排真值 y、下排输入 x。

给生成器额外输入噪声变量 z，让它能对同一个 x 产生多个合理 HR 解：
ŷ = Π_x^A f_θ(x, z)

\[ \operatorname*{argmin}_{\theta}\,\mathrm{KL}[q_{Y;\theta}\,\|\,p_Y]=\operatorname*{argmin}_{\theta}\,\mathbb{E}_{x}\,\mathrm{KL}[q_{Y\mid X;\theta}\,\|\,p_{Y\mid X}] \] 随机版 AffGAN ≈ 在执行摊销变分推断（如 VAE）

闭环 ▸ 这正好回应 §5.6 的批评——从后验采样而非死磕单个众数，与开头 Pixel Recursive SR 的"采样"思想殊途同归。

AffGAN · 变分推断视角32

总结 · §6

一页回顾：MAP → 交叉熵 → 投影 → GAN

与 PRSR 的呼应 ▸ PRSR 显式建分布并逐像素采样；AffGAN 不显式建分布、前馈一次出图找众数。§5.6 + 附录 F 又把两条路汇合到“从后验采样”。

AffGAN · 总结33

Amortised MAP Inference for Image Super-Resolution · ICLR 2017

谢谢 · Q&A

讨论留给大家：
· 仿射投影层能否直接接到我们现有的 SR / PRSR 模型上？
· "众数 vs 采样"——在你的任务里更想要哪一个？
· 实例噪声与扩散模型的加噪退火，是不是同一回事？

主线回顾：MAP → 交叉熵 → 仿射投影 → GAN

用于图像超分辨率的摊销 MAP 推断

四个 Part，一条主线：MAP → 交叉熵 → 投影 → GAN

Part 1 · 背景

Part 2 · 方法

Part 3 · 实验

Part 4 · 总结

背景与动机

先接上旧知识：和 Pixel Recursive SR 有何不同？

先问一句：什么是"点估计 point estimation"？

点估计"三兄弟"：均值 mean / 中位数 median / 众数 mode

不是"唯一还原"，而是在满足约束的候选里挑最像真实分布的点

MAP 更合理，为什么以前很少用？

MAP 以前的两道坎

本文怎么破这两道坎

方法

什么是"摊销 MAP 推断"？传统 MAP vs 摊销 MAP

三个词先讲清：列空间 · 零空间 · 伪逆

本文最硬核的创新：仿射投影层

魔法一步：MAP 推断 = 最小化交叉熵

不再需要成对数据

更像生成式建模

熵 / 交叉熵 / KL：用"编码花几个 bit"来记

最小化交叉熵的三件武器

GAN 基础我们学过——这里怎么用？与 SRGAN 差在哪？

30 秒回顾（已知）

AffGAN：把仿射投影的 SR 函数当作生成器

彩蛋：GAN 的"熵奖励"恰好缓解 mode collapse

差了一个 −H[qθ]

因此 AffGAN 偏好

GAN 为何不稳定？实例噪声来救场

一个关键洞见：去噪 = 学习对数密度的梯度

AffDG：用去噪器的梯度反传训练 SR 网络

AffLL：用显式密度模型当先验来引导

和 Pixel Recursive SR 的接口

实验

瑞士卷验证：AffGAN/AffDG 真的在最小化交叉熵

概念验证：仿射投影不会损害 SR 性能

草地纹理 4×：AffGAN 最锐利

CelebA 人脸 4×：锐利度 vs PSNR 的权衡

ImageNet 自然图像：AffGAN 会"梦出"合理细节

总结与讨论

冷静一下：高维下"众数未必典型"

为何 AffDG / AffLL 收敛却模糊？

把 AffGAN 扩展为摊销变分推断

一页回顾：MAP → 交叉熵 → 投影 → GAN

谢谢 · Q&A

用于图像超分辨率的
摊销 MAP 推断

差了一个 −H[q_θ]