From 0fc463effd8410ab6db8e779adac0eb9fb24f34d Mon Sep 17 00:00:00 2001 From: liber145 Date: Wed, 15 Mar 2017 00:51:37 -0400 Subject: [PATCH] small update chapter 19, 20 --- Chapter19/approximate_inference.tex | 5 +++-- Chapter20/deep_generative_models.tex | 15 ++++++++------- 2 files changed, 11 insertions(+), 9 deletions(-) diff --git a/Chapter19/approximate_inference.tex b/Chapter19/approximate_inference.tex index 96e5059..cfa5f01 100644 --- a/Chapter19/approximate_inference.tex +++ b/Chapter19/approximate_inference.tex @@ -779,7 +779,8 @@ \subsection{连续型\gls{latent_variable}} 从这里,我们可以发现$\tilde{q}$的\gls{functional}形式满足\gls{gaussian_distribution}。 因此,我们可以得到$q(\Vh\mid\Vv) = \CalN(\Vh;\Vmu,\Vbeta^{-1})$,其中$\Vmu$和对角的$\Vbeta$是变分参数,我们可以使用任何方法来优化它。 -有必要再强调一下,我们并没有假设$q$是一个\gls{gaussian_distribution},这个高斯的形式是使用\gls{calculus_of_variations}来最大化关于$\CalL$的分布$q$\footnote{此处似乎有笔误。}推导出的。 %?? 什么笔误啊。。。 最大化L关于q 还是 最大化q关于L +%有必要再强调一下,我们并没有假设$q$是一个\gls{gaussian_distribution},这个高斯的形式是使用\gls{calculus_of_variations}来最大化关于$\CalL$的分布$q$\footnote{此处似乎有笔误。}推导出的。 %?? 什么笔误啊。。。 最大化L关于q 还是 最大化q关于L +有必要再强调一下,我们并没有假设$q$是一个\gls{gaussian_distribution},这个高斯的形式是使用\gls{calculus_of_variations}来关于分布$q$最大化$\CalL$而推导出来的。 在不同的模型上应用相同的方法可能会得到不同\gls{functional}形式的分布$q$。 % 641 @@ -809,7 +810,7 @@ \subsection{学习和推断之间的相互作用} % 642 这种行为使得我们做的近似假设变得合理。 %这种行为使我们的近似假设成为自我实现。 -如果我们用\gls{unimodal}近似后验来训练模型,我们将获得一个真实后验的模型,该模型比我们使用精确推断训练模型获得的模型更接近\gls{unimodal}。 +如果我们用\gls{unimodal}近似后验来训练模型,那么所得具有真实后验的模型会比我们使用精确推断训练模型获得的模型更接近\gls{unimodal}。 %?? % 642 diff --git a/Chapter20/deep_generative_models.tex b/Chapter20/deep_generative_models.tex index 9ac004d..51ecfc1 100644 --- a/Chapter20/deep_generative_models.tex +++ b/Chapter20/deep_generative_models.tex @@ -61,7 +61,7 @@ \section{\glsentrytext{BM}} 不仅仅使用局部统计信息的其他学习算法似乎需要假设更多的学习机制。 例如,对于大脑在\gls{MLP}中实现的\gls{back_propagation},似乎需要维持一个辅助通信的网络,并借此向后传输梯度信息。 -已经有学者\citep{Hinton-DL2007,Bengio-arxiv2015} 提出生物学上可行(和近似)的\gls{back_propagation}实现方案,但仍然有待验证,\citet{Bengio-arxiv2015} 还将梯度的\gls{back_propagation}链接到类似于\gls{BM}(但具有连续\gls{latent_variable})能量模型中的\gls{inference}。 +已经有学者\citep{Hinton-DL2007,Bengio-arxiv2015} 提出生物学上可行(和近似)的\gls{back_propagation}实现方案,但仍然有待验证,\citet{Bengio-arxiv2015} 还将梯度的\gls{back_propagation}关联到类似于\gls{BM}(但具有连续\gls{latent_variable})的能量模型中的\gls{inference}。 从生物学的角度看,\gls{BM}学习中的\gls{negative_phase}阶段有点难以解释。 正如\secref{sec:stochastic_maximum_likelihood_and_contrastive_divergence}所主张的,人类在睡眠时做梦可能是一种形式的\gls{negative_phase}采样。 @@ -172,7 +172,8 @@ \subsection{条件分布} \subsection{训练\glsentrytext{RBM}} \label{sec:training_restricted_boltzmann_machines} -因为~\glssymbol{RBM}~允许以高效~\glssymbol{mcmc}~采样(\gls{block_gibbs_sampling}的形式)对$\tilde{P}(\Vv)$进行高效评估和求导,所以可以简单地使用\chapref{chap:confronting_the_partition_function}中描述的任意训练具有难解\gls{partition_function}模型的技术。 +%因为~\glssymbol{RBM}~允许以高效~\glssymbol{mcmc}~采样(\gls{block_gibbs_sampling}的形式)对$\tilde{P}(\Vv)$进行高效评估和求导,所以可以简单地使用\chapref{chap:confronting_the_partition_function}中描述的任意训练具有难解\gls{partition_function}模型的技术。 +因为~\glssymbol{RBM}~允许高效计算$\tilde{P}(\Vv)$的估计和微分,并且还允许高效地(以\gls{block_gibbs_sampling}的形式)进行\glssymbol{mcmc}~采样,所以我们很容易使用\chapref{chap:confronting_the_partition_function}中训练具有难以计算\gls{partition_function}的模型的技术来训练~\glssymbol{RBM}。 这包括~\glssymbol{contrastive_divergence}、\,\glssymbol{SML}(\glssymbol{persistent_contrastive_divergence})、\gls{ratio_matching}等。 与深度学习中使用的其他\gls{undirected_model}相比,\glssymbol{RBM}~可以相对直接地训练,因为我们可以以闭解形式计算$P(\RVh \mid \Vv)$。 其他一些深度模型,如\gls{DBM},同时具备难处理的\gls{partition_function}和难以推断的难题。 @@ -261,7 +262,7 @@ \section{\glsentrytext{DBN}} 与\chapref{chap:approximate_inference}中从基本原理导出的许多\gls{inference}方程相比,这种特定选择的~\glssymbol{MLP}~有些随意。 这个~\glssymbol{MLP}~是一个启发式选择,似乎在实践中效果不错,并在文献中一贯使用。 -许多近似\gls{inference}技术是由它们在一些约束下在对数似然上找到最大\emph{紧}变分下界的能力所驱动的。 +许多近似\gls{inference}技术是由它们在一些约束下能够找到对数似然的最大\emph{紧}变分下界的能力所驱动的。 我们可以使用~\glssymbol{DBN}~中~\glssymbol{MLP}~定义的\gls{hidden_unit}的期望,构造对数似然的变分下界,但这对于\gls{hidden_unit}上的\emph{任何}概率分布都是如此,并没有理由相信该~\glssymbol{MLP}~提供了一个特别的紧界。 特别地,\glssymbol{MLP}~忽略了~\glssymbol{DBN}~\gls{graphical_model}中许多重要的相互作用。 \glssymbol{MLP}~将信息从可见单元向上传播到最深的\gls{hidden_unit},但不向下或侧向传播任何信息。 @@ -430,7 +431,7 @@ \subsection{\glssymbol{DBM}\glsentrytext{meanfield}\gls{inference}} \log \Big( \frac{Q(\Vh^{(1)}, \Vh^{(2)} \mid \Vv)}{P(\Vh^{(1)}, \Vh^{(2)} \mid \Vv)} \Big). \end{align} -一般来说,我们不必提供参数形式的近似分布,除了要保证独立性假设。 +一般来说,除了要保证独立性假设,我们不必提供参数形式的近似分布。 变分近似过程通常能够恢复近似分布的函数形式。 然而,在二值\gls{hidden_unit}(我们在这里推导的情况)的\gls{meanfield}假设的情况下,不会由于预先固定模型的参数而损失一般性。 @@ -897,10 +898,10 @@ \subsection{条件协方差的\glsentrytext{undirected_model}} 相比~\glssymbol{mcrbm}~和~\glssymbol{mpot}~模型,\glssymbol{ssrbm}~以明显不同的方式参数化观察量的条件协方差。 \glssymbol{mcrbm}~和~\glssymbol{mpot}~都通过 $\big( \sum_j h_j^{(c)} \Vr^{(j)} \Vr^{(j)\top} + \MI \big)^{-1}$建模观察量的协方差结构,使用 $\Vh_j > 0$的\gls{hidden_unit}的激活来对方向$\Vr^{(j)}$的条件协方差施加约束。 -相反,\glssymbol{ssrbm}~使用隐藏尖峰激活$h_i = 1$来指定观察的条件协方差,以沿着由相应权重向量指定的方向捏合精度矩阵。 +相反,\glssymbol{ssrbm}~使用隐藏尖峰激活$h_i = 1$来指定观察结果的条件协方差,以沿着由相应权重向量指定的方向捏合精度矩阵。 \glssymbol{ssrbm}~条件协方差与一个不同模型给出的类似:概率主成分分析的乘积(PoPPCA)\citep{Williams2002}。 在\gls{overcomplete}的设定下,\glssymbol{ssrbm}~参数化的稀疏激活仅允许在稀疏激活$h_i$的所选方向上有显著方差(高于由$\VLambda^{-1}$给出的近似方差)。 -在~\glssymbol{mcrbm}~或~\glssymbol{mpot}~模型中,\gls{overcomplete}的表示意味着,要在捕获观察空间中特定方向的变化需要在该方向上的正交投影下去除潜在的所有约束。 +在~\glssymbol{mcrbm}~或~\glssymbol{mpot}~模型中,\gls{overcomplete}的表示意味着,捕获观察空间中特定方向上的变化需要在该方向上的正交投影下去除潜在的所有约束。 这表明这些模型不太适合于\gls{overcomplete}设定。 \gls{ssrbm}~的主要缺点是参数的一些设置会对应于非正定的协方差矩阵。 @@ -1872,7 +1873,7 @@ \section{其他生成方案} \citet{Sohl-Dickstein-et-al-ICML2015} 开发了一种基于非平衡热力学学习\gls{generative_model}的\,\textbf{扩散反演}(diffusion inversion)训练方案。 该方法基于我们希望从中采样的概率分布具有结构的想法。 -这种结构会被扩散过程逐渐破坏,概率分布逐渐地变得具有更多的熵。 +这种结构会被递增地使概率分布具有更多熵的扩散过程逐渐破坏。 为了形成\gls{generative_model},我们可以反过来运行该过程,通过训练模型逐渐将结构恢复到非结构化分布。 通过迭代地应用使分布更接近目标分布的过程,我们可以逐渐接近该目标分布。 在涉及许多迭代以产生样本的意义上,这种方法类似于~\glssymbol{mcmc}~方法。