diff --git a/Chapter1/introduction.tex b/Chapter1/introduction.tex index 205bb80..cfd379f 100644 --- a/Chapter1/introduction.tex +++ b/Chapter1/introduction.tex @@ -417,7 +417,7 @@ \subsection{神经网络的众多名称和命运变迁} 这个算法虽然曾黯然失色不再流行,但截至写书之时,它仍是训练深度模型的主导方法。% ?? 在20世纪90年代,研究人员在使用\gls{NN}进行序列建模的方面取得了重要进展。 -\citet{Hochreiter91}和~\citet{Bengio1994ITNN}指出了对长序列进行建模的一些根本性数学难题,这将在\secref{sec:the_challenge_of_long_term_dependencies}中描述。 +\citet{Hochreiter91}和~\citet{Bengio-trnn93-small}指出了对长序列进行建模的一些根本性数学难题,这将在\secref{sec:the_challenge_of_long_term_dependencies}中描述。 \citet{Hochreiter+Schmidhuber-1997}引入\firstall{LSTM}网络来解决这些难题。 如今,\glssymbol{LSTM}~在许多序列建模任务中广泛应用,包括Google的许多自然语言处理任务。 diff --git a/Chapter10/sequence_modeling_rnn.tex b/Chapter10/sequence_modeling_rnn.tex index 1d59d50..18fd492 100644 --- a/Chapter10/sequence_modeling_rnn.tex +++ b/Chapter10/sequence_modeling_rnn.tex @@ -692,11 +692,11 @@ \section{深度\glsentrytext{recurrent_network}} 通常,这是由学成的仿射变换和一个固定非线性表示组成的变换。 在这些操作中引入深度会有利的吗? -实验证据\citep{Graves-arxiv2013,Pascanu-et-al-ICLR2014}强烈暗示理应如此。 +实验证据\citep{Graves-et-al-ICASSP2013,Pascanu-et-al-ICLR2014}强烈暗示理应如此。 实验证据与我们需要足够的深度以执行所需映射的想法一致。 -读者可以参考~\cite{Schmidhuber96,ElHihi+Bengio-nips8}或~\cite{Jaeger2007}了解更早的关于深度~\glssymbol{RNN}~的研究。 +读者可以参考~\cite{Schmidhuber92,ElHihi+Bengio-nips8}或~\cite{Jaeger2007}了解更早的关于深度~\glssymbol{RNN}~的研究。 -\cite{Graves-arxiv2013}第一个展示了将~\glssymbol{RNN}~的状态分为多层的显著好处,如\figref{fig:chap10_deep}~\emph{(左)}。 +\cite{Graves-et-al-ICASSP2013}第一个展示了将~\glssymbol{RNN}~的状态分为多层的显著好处,如\figref{fig:chap10_deep}~\emph{(左)}。 我们可以认为,在\figref{fig:chap10_deep}(a)所示层次结构中较低的层起到了将原始输入转化为对更高层的隐藏状态更合适表示的作用。 \cite{Pascanu-et-al-ICLR2014}更进一步提出在上述三个块中各使用一个单独的~\glssymbol{MLP}(可能是深度的),如\figref{fig:chap10_deep}(b)所示。 考虑表示容量,我们建议在这三个步中都分配足够的容量,但增加深度可能会因为优化困难而损害学习效果。 @@ -836,7 +836,7 @@ \section{\glsentrytext{long_term_dependency}的挑战} \section{\glsentrytext{ESN}} \label{sec:echo_state_networks} 从$\Vh^{(t-1)}$到$\Vh^{(t)}$的循环权重映射以及从$\Vx^{(t)}$到$\Vh^{(t)}$的输入权重映射是\gls{recurrent_network}中最难学习的参数。 -研究者\citep{Jaeger-NIPS2002,Maass-et-al-2002,Jaeger+Haas-2004}提出避免这种困难的方法是设定循环\gls{hidden_unit},使其能很好地捕捉过去输入历史,并且\emph{只学习输出权重}。 +研究者\citep{Jaeger-NIPS2002,Maass-et-al-2002,Jaeger+Haas-2004,Jaeger-2007}提出避免这种困难的方法是设定循环\gls{hidden_unit},使其能很好地捕捉过去输入历史,并且\emph{只学习输出权重}。 \firstgls{ESN}或~\glssymbol{ESN}~\citep{Jaeger+Haas-2004,Jaeger-2007},以及\firstgls{liquid_state_machines}\citep{Maass-et-al-2002}分别独立地提出了这种想法。 后者是类似的,只不过它使用脉冲神经元(二值输出)而不是~\glssymbol{ESN}~中的连续\gls{hidden_unit}。 \glssymbol{ESN}~和\gls{liquid_state_machines}都被称为\firstgls{reservoir_computing}\citep{Lukosevicius+Jaeger-2009},因为\gls{hidden_unit}形成了可能捕获输入历史不同方面的临时特征池。 @@ -913,7 +913,7 @@ \subsection{时间维度的\glsentrytext{skip_connection}} 增加从遥远过去的变量到目前变量的直接连接是得到粗时间尺度的一种方法。 使用这样\gls{skip_connection}的想法可以追溯到\cite{Lin-ieeetnn96},紧接是向\gls{feedforward_network}引入延迟的想法\citep{Lang+Hinton88}。 在普通的\gls{recurrent_network}中,循环从时刻$t$的单元连接到时刻$t+1$单元。 -构造较长的延迟\gls{recurrent_network}是可能的\citep{Bengio91z}。 +构造较长的延迟\gls{recurrent_network}是可能的\citep{Bengio91}。 正如我们在\secref{sec:long_term_dependencies}看到,\gls{gradient}可能\emph{关于时间步数}呈指数消失或爆炸。 \citep{Lin-ieeetnn96}引入了$d$延时的循环连接以减轻这个问题。 @@ -983,7 +983,7 @@ \subsection{\glssymbol{LSTM}} 其中一个关键扩展是使自循环的权重视上下文而定,而不是固定的\citep{Gers-et-al-2000}。 \gls{gated}此自循环(由另一个\gls{hidden_unit}控制)的权重,累积的时间尺度可以动态地改变。 在这种情况下,即使是具有固定参数的~\glssymbol{LSTM},累积的时间尺度也可以因输入序列而改变,因为时间常数是模型本身的输出。 -\glssymbol{LSTM}~已经在许多应用中取得重大成功,如无约束手写识别\citep{Graves+Schmidhuber-2009}、语音识别\citep{Graves-et-al-ICASSP2013,Graves+Jaitly-ICML2014}、手写识别\citep{Graves-et-al-ICASSP2013}、机器翻译\citep{Sutskever-et-al-NIPS2014}、为图像生成标题\citep{Kiros-et-al-arxiv2014,Vinyals-et-al-arxiv2014,Xu-et-al-ICML2015}和解析\citep{Vinyals2014}。 +\glssymbol{LSTM}~已经在许多应用中取得重大成功,如无约束手写识别\citep{Graves-et-al-2009}、语音识别\citep{Graves-et-al-ICASSP2013,Graves+Jaitly-ICML2014}、手写生成\citep{Graves-arxiv2013}、机器翻译\citep{Sutskever-et-al-NIPS2014}、为图像生成标题\citep{Kiros-et-al-arxiv2014,Vinyals-et-al-arxiv2014,Xu-et-al-ICML2015}和解析\citep{Vinyals2014}。 % -- 397 -- diff --git a/Chapter12/applications.tex b/Chapter12/applications.tex index 497096e..b59fe4d 100644 --- a/Chapter12/applications.tex +++ b/Chapter12/applications.tex @@ -148,7 +148,7 @@ \subsection{大规模的分布式实现} % 435 -这个问题可以使用\firstgls{ASGD}\citep{Bengio+Bengio96,Recht-et-al-NIPS2011}解决。 +这个问题可以使用\firstgls{ASGD}\citep{BenDucVin01-small,Recht-et-al-NIPS2011}解决。 在这个方法中,几个处理器的核共用存有参数的内存。 每一个核在无锁情况下读取这些参数并计算对应的梯度,然后在无锁状态下更新这些参数。 %这种方法减少了每一个\gls{GD}所获得的平均提升,因为一些核把其他的核所更新的参数(写)覆盖了。 @@ -199,7 +199,7 @@ \subsection{\glsentrytext{dynamic_structure}} 一般来说,加速数据处理系统的一种策略是构造一个系统,这个系统用\firstgls{dynamic_structure}描述图中处理输入的所需计算过程。 在给定一个输入的情况中,数据处理系统可以动态地决定运行神经网络系统的哪一部分。 单个神经网络内部同样也存在\gls{dynamic_structure},给定输入信息,决定特征(\gls{hidden_unit})哪一部分用于计算。 -这种神经网络中的\gls{dynamic_structure}有时被称为\firstgls{conditional_computation}\citep{bengio2013estimating,bengio-arxiv13-condcomp}。 +这种神经网络中的\gls{dynamic_structure}有时被称为\firstgls{conditional_computation}\citep{Bengio-chapterSLSP-2013,bengio2013estimating}。 由于模型结构许多部分可能只跟输入的一小部分有关,只计算那些需要的特征可以起到加速的目的。 % 436 @@ -240,7 +240,7 @@ \subsection{\glsentrytext{dynamic_structure}} 当\gls{gater}决策的数量很小时,这个策略效果会很好,因为它不是组合的。 但是当我们想要选择不同的单元或参数子集时,不可能使用``软开关'',因为它需要枚举(和计算输出)所有的\gls{gater}配置。 为了解决这个问题,许多工作探索了几种方法来训练组合的\gls{gater}。 -\citet{bengio-arxiv13-condcomp}提出使用\gls{gater}概率梯度的若干估计器,而~\citet{Bacon-et-al-RLDM2015,BengioE-et-al-arXiv2015}使用\gls{RL}技术(\firstgls{policy_gradient})来学习一种条件的~\gls{dropout}~形式(作用于\gls{hidden_unit}块),减少了实际的计算成本,而不会对近似的质量产生负面影响。 +\citet{bengio2013estimating}提出使用\gls{gater}概率梯度的若干估计器,而~\citet{Bacon-et-al-RLDM2015,BengioE-et-al-arXiv2015}使用\gls{RL}技术(\firstgls{policy_gradient})来学习一种条件的~\gls{dropout}~形式(作用于\gls{hidden_unit}块),减少了实际的计算成本,而不会对近似的质量产生负面影响。 % 438 @@ -490,7 +490,7 @@ \subsection{\glsentrytext{dataset_augmentation}} \gls{object_recognition}这个分类任务特别适合于这种形式的\gls{dataset_augmentation},因为类别信息对于许多变换是不变的,而我们可以简单地对输入应用诸多几何变换。 如前所述,分类器可以受益于随机转换或者旋转,某些情况下输入的翻转可以增强数据集。 在专门的\gls{CV}应用中,存在很多更高级的用以\gls{dataset_augmentation}的变换。 -这些方案包括图像中颜色的随机扰动~\citep{Krizhevsky-2012},以及对输入的非线性几何变形~\citep{chapter-gradient-document-2001}。 +这些方案包括图像中颜色的随机扰动~\citep{Krizhevsky-2012},以及对输入的非线性几何变形~\citep{LeCun98-small}。 % 445 @@ -557,7 +557,7 @@ \section{\glsentrytext{SR}} % 448 完全抛弃~\glssymbol{HMM}~并转向研究\gls{end_to_end}\gls{DL}\gls{SR}系统是至今仍然活跃的另一个重要推动。 -这个领域第一个主要的突破是~\citet{Graves-et-al-ICASSP2013},其中训练了一个深度的\gls{LSTM}\gls{RNN}(见\secref{sec:the_long_short_term_memory_and_other_gated_rnns}),使用了帧-\gls{phoneme}排列的~\glssymbol{MAP}~推断,就像~\citet{chapter-gradient-document-2001}以及CTC框架~\citep{Graves-et-al-2006,Graves-book2012}中一样。 +这个领域第一个主要的突破是~\citet{Graves-et-al-ICASSP2013},其中训练了一个深度的\gls{LSTM}\gls{RNN}(见\secref{sec:the_long_short_term_memory_and_other_gated_rnns}),使用了帧-\gls{phoneme}排列的~\glssymbol{MAP}~推断,就像~\citet{LeCun98-small}以及CTC框架~\citep{Graves-et-al-2006,Graves-book2012}中一样。 一个深度\gls{RNN}~\citep{Graves-et-al-ICASSP2013}每个\gls{time_step}的各层都有状态变量,两种\gls{unfolded_graph}的方式导致两种不同深度:一种是普通的根据层的堆叠衡量的深度,另一种根据时间\gls{unfolding}衡量的深度。 这个工作把TIMIT数据集上\gls{phoneme}的错误率记录降到了的新低$17.7$\%。 关于应用于其他领域的深度\gls{RNN}的变种可以参考~\citet{Pascanu-et-al-ICLR2014,Chung-et-al-NIPSDL2014-small}。 @@ -707,7 +707,7 @@ \subsection{\glsentrytext{NLM}} % -- 452 -- 使用\gls{distributed_representation}来改进\gls{NLP}模型的基本思想不必局限于\gls{NN}。 -它还可以用于\gls{graphical_model},其中\gls{distributed_representation}是多个\gls{latent_variable}的形式。 +它还可以用于\gls{graphical_model},其中\gls{distributed_representation}是多个\gls{latent_variable}的形式\citep{Mnih+Hinton-2007}。 \subsection{高维输出} \label{sec:high_dimensional_outputs} @@ -937,7 +937,7 @@ \subsection{\glsentrytext{NMT}} 最早的机器翻译\gls{NN}探索中已经纳入了\gls{encoder}和\gls{decoder}的想法(Allen 1987; Chrisman 1991; Forcada and Ñeco 1997),而翻译中\gls{NN}的第一个大规模有竞争力的用途是通过\gls{NLM}升级翻译系统的\gls{language_model}~\citep{Schwenk-et-al-IWSLT2006,Schwenk-2010}。 之前,大多数机器翻译系统在该组件使用~\gls{n_gram}~模型。 -机器翻译中基于~\gls{n_gram}~的模型不仅包括传统的回退~\gls{n_gram}~模型,而且包括\textbf{最大熵语言模型}(maximum entropy language models),其中给定上下文中常见的词,affine-softmax层预测下一个词。 +机器翻译中基于~\gls{n_gram}~的模型不仅包括传统的回退~\gls{n_gram}~模型~\citep{Jelinek+Mercer80,Katz87,Chen+Goodman99},而且包括\textbf{最大熵语言模型}(maximum entropy language models)~\citep{MaxEnt96},其中给定上下文中常见的词,affine-softmax层预测下一个词。 传统\gls{language_model}仅仅报告自然语言句子的概率。 因为机器翻译涉及给定输入句子产生输出句子,所以将自然\gls{language_model}扩展为条件的是有意义的。 diff --git a/Chapter13/linear_factor_models.tex b/Chapter13/linear_factor_models.tex index ee2ad94..561b044 100644 --- a/Chapter13/linear_factor_models.tex +++ b/Chapter13/linear_factor_models.tex @@ -99,12 +99,12 @@ \section{\glsentrytext{PPCA}和\glsentrytext{FA}} \RVx = \MW\RVh + \Vb + \sigma\RVz, \end{align} 其中$\RVz \sim \CalN(\Vz;\mathbf{0},\MI)$是高斯噪声。 -之后~\citet{tipping99mixtures}提出了一种迭代的~\glssymbol{EM}~算法来估计参数$\MW$和$\sigma^2$。 +之后~\citet{Tipping99}提出了一种迭代的~\glssymbol{EM}~算法来估计参数$\MW$和$\sigma^2$。 % 481 这个\firstgls{PPCA}模型利用了这样一种观察现象:除了一些微小残余的\firstgls{reconstruction_error}(至多为$\sigma^2$),数据中的大多数变化可以由\gls{latent_variable} $\Vh$描述。 -通过\citet{tipping99mixtures}的研究我们可以发现,当$\sigma \xrightarrow{} 0$时,\gls{PPCA}~退化为~\glssymbol{PCA}。 +通过\citet{Tipping99}的研究我们可以发现,当$\sigma \xrightarrow{} 0$时,\gls{PPCA}~退化为~\glssymbol{PCA}。 在这种情况下,给定$\Vx$情况下$\Vh$的条件期望等于将$\Vx - \Vb$投影到$\MW$的$d$列所生成的空间上,与~\glssymbol{PCA}~一样。 % 481 @@ -183,7 +183,7 @@ \section{\glsentrytext{ICA}} % 483 -\glssymbol{ICA}~的另一个推广是通过鼓励组内统计依赖关系、抑制组间依赖关系来学习特征组。 +\glssymbol{ICA}~的另一个推广是通过鼓励组内统计依赖关系、抑制组间依赖关系来学习特征组\citep{hyvarinen1999emergence,HyvarinenA2001}。 当相关单元的组被选为不重叠时,这被称为\firstgls{ISA}。 我们还可以向每个\gls{hidden_unit}分配空间坐标,并且空间上相邻的单元组形成一定程度的重叠。 这能够鼓励相邻的单元学习类似的特征。 diff --git a/Chapter15/representation_learning.tex b/Chapter15/representation_learning.tex index 41fb559..acad23b 100644 --- a/Chapter15/representation_learning.tex +++ b/Chapter15/representation_learning.tex @@ -135,7 +135,7 @@ \section{\glsentrytext{greedy_layer_wise_unsupervised_pretraining}} \gls{greedy_layer_wise_unsupervised_pretraining}也能用作其他\gls{unsupervised_learning}算法的初始化,比如深度\gls{AE}~\citep{Hinton-Science2006}和具有很多\gls{latent_variable}层的概率模型。 -这些\gls{model}包括\gls{DBN}~\citep{Hinton06-small}和\gls{DBM}~\citep{Salakhutdinov+Hinton-2009-small}。 +这些\gls{model}包括\gls{DBN}~\citep{Hinton06-small}和\gls{DBM}~\citep{SalHinton09}。 这些\gls{DGM}会在\chapref{chap:deep_generative_models}中讨论。 % 520 mid @@ -880,7 +880,7 @@ \section{得益于深度的指数增益} % 544 head 在\secref{sec:universal_approximation_properties_and_depth}中,我们看到确定性\gls{feedforward_network}是函数的\gls{universal_approximator}。 -许多具有单个\gls{hidden_layer}(\gls{latent_variable})的\gls{structured_probabilistic_models}(包括\gls{RBM},\gls{DBN})是概率分布的\gls{universal_approximator}~\citep{LeRoux-Bengio-2007-TR,Montufar-2011,Montufar-et-al-NIPS2014,Krause-et-al-ICML2013}。 +许多具有单个\gls{hidden_layer}(\gls{latent_variable})的\gls{structured_probabilistic_models}(包括\gls{RBM},\gls{DBN})是概率分布的\gls{universal_approximator}~\citep{LeRoux-Bengio-2008,LeRoux+Bengio-2010,Montufar-2011,Montufar-arxiv2013,Krause-et-al-ICML2013}。 % 544 mid diff --git a/Chapter17/monte_carlo_methods.tex b/Chapter17/monte_carlo_methods.tex index e471d55..0983b43 100644 --- a/Chapter17/monte_carlo_methods.tex +++ b/Chapter17/monte_carlo_methods.tex @@ -503,7 +503,7 @@ \subsection{不同\gls{mode}之间通过\glsentrytext{tempering}来\glsentrytext 其中\gls{markov_chain}并行地模拟许多不同\gls{temperature}的不同状态。 最高\gls{temperature}的状态\gls{mixing}较慢,相比之下最低\gls{temperature}的状态,即\gls{temperature}为$1$时,采出了精确的样本。 转移算子包括了两个\gls{temperature}之间的随机跳转,所以一个高\gls{temperature}状态分布槽中的样本有足够大的概率跳转到低\gls{temperature}分布的槽中。 -这个方法也被应用到了\,\glssymbol{RBM}中~\citep{Desjardins+al-2010-small,Cho10IJCNN}。 +这个方法也被应用到了\,\glssymbol{RBM}中~\citep{desjardins2010tempered,Cho10IJCNN}。 尽管\gls{tempering}这种方法前景可期,现今它仍然无法让我们在采样复杂的\gls{energy_based_model}中更进一步。 一个可能的原因是在\firstgls{critical_temperatures}时\gls{temperature}转移算子必须设置得非常慢(因为\gls{temperature}需要逐渐下降)来确保\gls{tempering}的有效性。 % 594 diff --git a/Chapter19/approximate_inference.tex b/Chapter19/approximate_inference.tex index 3324ad8..0547a10 100644 --- a/Chapter19/approximate_inference.tex +++ b/Chapter19/approximate_inference.tex @@ -890,7 +890,7 @@ \subsection{\glsentrytext{learned}推断的其他形式} % 644 -近来\gls{learned}\gls{approximate_inference}已经成为了\gls{VAE}形式的\gls{generative_model}中的主要方法之一 \citep{Kingma+Welling-ICLR2014,Rezende-et-al-ICML2014}。 +近来\gls{learned}\gls{approximate_inference}已经成为了\gls{VAE}形式的\gls{generative_model}中的主要方法之一 \citep{Kingma-arxiv2013,Rezende-et-al-ICML2014}。 在这种优美的方法中,不需要为推断网络构造显式的目标。 反之,推断网络仅仅被用来定义$\CalL$,然后调整推断网络的参数来增大$\CalL$。 我们将在\secref{sec:variational_autoencoders}中详细介绍这种模型。 @@ -899,18 +899,3 @@ \subsection{\glsentrytext{learned}推断的其他形式} 我们可以使用\gls{approximate_inference}来训练和使用很多不同的模型。 其中许多模型将在下一章中描述。 % 644 - - - - - - - - - - - - - - - diff --git a/Chapter3/probability_and_information_theory.tex b/Chapter3/probability_and_information_theory.tex index b16a37b..1a2e93a 100644 --- a/Chapter3/probability_and_information_theory.tex +++ b/Chapter3/probability_and_information_theory.tex @@ -544,7 +544,7 @@ \section{常用函数的有用性质} \label{fig:chap3_sigmoid_color} \end{figure} -另外一个经常遇到的函数是\firstgls{softplus_function}\citep{secondorder:2001:nips}: +另外一个经常遇到的函数是\firstgls{softplus_function}\citep{Dugas01}: \begin{equation} \zeta(x) = \log(1+\exp(x)). \end{equation} diff --git a/Chapter5/machine_learning_basics.tex b/Chapter5/machine_learning_basics.tex index 2b29ca4..e2f76e1 100644 --- a/Chapter5/machine_learning_basics.tex +++ b/Chapter5/machine_learning_basics.tex @@ -85,7 +85,7 @@ \subsection{任务 $T$} 例如,光学字符识别要求计算机程序根据文本图片返回文字序列(ASCII码或者Unicode码)。 谷歌街景以这种方式使用\gls{DL}处理街道编号\citep{Goodfellow+et+al-ICLR2014a}。 另一个例子是语音识别,计算机程序输入一段音频波形,输出一序列音频记录中所说的字符或单词ID的编码。 - \gls{DL}是现代语音识别系统的重要组成部分,被各大公司广泛使用,包括微软,IBM和谷歌\citep{Hinton-et-al-2012}。 + \gls{DL}是现代语音识别系统的重要组成部分,被各大公司广泛使用,包括微软,IBM和谷歌\citep{deepSpeechReviewSPM2012}。 \item \textbf{机器翻译}:在机器翻译任务中,输入是一种语言的符号序列,计算机程序必须将其转化成另一种语言的符号序列。 这通常适用于自然语言,如将英语译成法语。 @@ -232,7 +232,7 @@ \subsection{\glsentrytext{experience} $E$} 有些\gls{ML}算法并不是训练于一个固定的\gls{dataset}上。 例如,\firstgls{reinforcement_learning}算法会和环境进行交互,所以学习系统和它的训练过程会有反馈回路。 这类算法超出了本书的范畴。 -请参考~\cite{Sutton+Barto-98}或~\cite{Bertsekas+Tsitsiklis-book1996}了解强化学习相关知识,\cite{Mnih2013}介绍了强化学习方向的\gls{DL}方法。 +请参考~\cite{Sutton+Barto-98}或~\cite{Bertsekas+Tsitsiklis-book1996}了解强化学习相关知识,\citet{Deepmind-atari-arxiv2013}介绍了强化学习方向的\gls{DL}方法。 大部分\gls{ML}算法简单地训练于一个\gls{dataset}上。 \gls{dataset}可以用很多不同方式来表示。 @@ -583,7 +583,7 @@ \subsection{\glsentrytext{no_free_lunch_theorem}} \gls{ML}保证找到一个在所关注的\emph{大多数}\gls{example:chap5}上\emph{可能}正确的规则。 可惜,即使这样也不能解决整个问题。 -\gls{ML}的\firstgls{no_free_lunch_theorem}表明,在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。 +\gls{ML}的\firstgls{no_free_lunch_theorem}表明~\citep{Wolpert-1996},在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。 换言之,在某种意义上,没有一个\gls{ML}算法总是比其他的要好。 我们能够设想的最先进的算法和简单地将所有点归为同一类的简单算法有着相同的平均性能(在所有可能的任务上)。 @@ -1388,7 +1388,7 @@ \subsection{\glsentrytext{SVM}} \gls{SVM}不是唯一可以使用\gls{kernel_trick}来增强的算法。 许多其他的线性模型也可以通过这种方式来增强。 -使用\gls{kernel_trick}的算法类别被称为\firstgls{kernel_machines}或\firstgls{kernel_methods}\citep{Williams+Rasmussen-nips8,Scholkopf99}。 +使用\gls{kernel_trick}的算法类别被称为\firstgls{kernel_machines}或\firstgls{kernel_methods}\citep{Williams+Rasmussen-nips8,SchBurSmo99}。 核机器的一个主要缺点是计算决策函数的成本关于训练\gls{example:chap5}的数目是线性的。 因为第$i$个\gls{example:chap5}贡献$\alpha_i k(\Vx, \Vx^{(i)})$到决策函数。 @@ -1815,7 +1815,7 @@ \subsection{局部不变性和平滑\glsentrytext{regularization}} 一类重要的核函数是\firstgls{local_kernel},其核函数$k(\Vu,\Vv)$在$\Vu=\Vv$时很大, 当$\Vu$和$\Vv$距离拉大时而减小。 局部核可以看作是执行模版匹配的相似函数,用于度量测试\gls{example:chap5} $\Vx$和每个训练\gls{example:chap5} $\Vx^{(i)}$有多么相似。 -近年来深度学习的很多推动力源自研究局部模版匹配的局限性,以及\gls{DL}如何克服这些局限性\citep{NIPS2005_424}。 +近年来深度学习的很多推动力源自研究局部模版匹配的局限性,以及\gls{DL}如何克服这些局限性\citep{Bengio-localfailure-NIPS-2006-small}。 决策树也有平滑学习的局限性,因为它将输入空间分成和叶节点一样多的区间,并在每个区间使用单独的参数(或者有些决策树的拓展有多个参数)。 如果\gls{target}函数需要至少拥有$n$个叶节点的树才能精确表示,那么至少需要$n$个训练\gls{example:chap5}去拟合。 @@ -1859,7 +1859,7 @@ \subsection{局部不变性和平滑\glsentrytext{regularization}} 这些问题,即是否可以有效地表示复杂的函数以及所估计的函数是否可以很好地泛化到新的输入,答案是有。 关键观点是,只要我们通过额外假设生成数据的分布来建立区域间的依赖关系,那么$O(k)$个\gls{example:chap5}足以描述多如$O(2^k)$的大量区间。 -通过这种方式,我们确实能做到非局部的泛化\citep{Bengio+Monperrus-2005,NIPS2005_539}。 +通过这种方式,我们确实能做到非局部的泛化\citep{Bengio+Monperrus-2005,Bengio-Larochelle-NLMP-NIPS-2006-short}。 为了利用这些优势,许多不同的\gls{DL}算法都提出了一些适用于多种\,\glssymbol{AI}\,任务的隐式或显式的假设。 diff --git a/Chapter7/regularization.tex b/Chapter7/regularization.tex index a5f6c78..e129923 100644 --- a/Chapter7/regularization.tex +++ b/Chapter7/regularization.tex @@ -522,11 +522,11 @@ \section{\glsentrytext{semi_supervised_learning}} 我们可以构建这样一个模型,其中生成模型$P(\RVx)$或$P(\RVx, \RVy)$与判别模型$P(\RVy \mid \RVx)$共享参数,而不用分离\gls{unsupervised}和\gls{supervised}部分。 我们权衡\gls{supervised}模型\gls{criterion} $-\log P(\RVy \mid \RVx)$和\gls{unsupervised}或生成模型\gls{criterion}(如$-\log P(\RVx)$或$-\log P(\RVx, \RVy)$)。 生成模型\gls{criterion}表达了对\gls{supervised_learning}问题解的特殊形式的先验知识\citep{LasserreJ2006},即$P(\RVx)$的结构通过某种共享参数的方式连接到$P(\RVy \mid \RVx)$。 -通过控制在总\gls{criterion}中的生成\gls{criterion},我们可以获得比纯生成或纯判别训练\gls{criterion}更好的权衡\citep{LasserreJ2006,Larochelle2008}。 +通过控制在总\gls{criterion}中的生成\gls{criterion},我们可以获得比纯生成或纯判别训练\gls{criterion}更好的权衡\citep{LasserreJ2006,Larochelle+Bengio-2008-small}。 \cite{Russ+Geoff-nips-2007}描述了一种学习回归\gls{kernel_machines}中核函数的方法,其中建模$P(\RVx)$时使用的未标记样本大大提高了$P(\RVy \mid \RVx)$的效果。 -更多\gls{semi_supervised_learning}的信息,请参阅~\cite{SSL-Book-2006}。 +更多\gls{semi_supervised_learning}的信息,请参阅~\cite{Chapelle-2006}。 \section{\glsentrytext{multitask_learning}} \label{sec:multitask_learning} @@ -985,7 +985,7 @@ \section{\glsentrytext{bagging}和其他\glsentrytext{ensemble}方法} 不是所有构建\gls{ensemble}的技术都是为了让\gls{ensemble}模型比单一模型更加\gls{regularization}。 例如,一种被称为\textbf{Boosting}的技术\citep{ConfLT:Freund:gametheorie,ConfML:Freund:AdaBoostCompar}构建比单个模型\gls{capacity}更高的\gls{ensemble}模型。 -通过向\gls{ensemble}逐步添加\gls{NN},\gls{boosting}已经被应用于构建神经网络的\gls{ensemble}\citep{Schwenk-nips10}。 +通过向\gls{ensemble}逐步添加\gls{NN},\gls{boosting}已经被应用于构建神经网络的\gls{ensemble}\citep{nips-10:Holger+Yoshua:1998}。 通过逐渐增加\gls{NN}的\gls{hidden_unit},\gls{boosting}也可以将单个神经网络解释为一个\gls{ensemble}。 \section{\glsentrytext{dropout}} @@ -1387,7 +1387,7 @@ \section{\glsentrytext{tangent_distance}、\glsentrytext{tangent_prop}和流形 % -- 264 -- -\gls{tangent_prop}也和\gls{double_backprop}\citep{DruckerLeCun92}以及\gls{adversarial_training}\citep{Szegedy-et-al-arxiv2014,Goodfellow-2015-adversarial}有关联。 +\gls{tangent_prop}也和\gls{double_backprop}\citep{DruckerLeCun92}以及\gls{adversarial_training}\citep{Szegedy-ICLR2014,Goodfellow-2015-adversarial}有关联。 \gls{double_backprop}\gls{regularization}使\gls{jacobian}矩阵偏小,而\gls{adversarial_training}找到原输入附近的点,训练模型在这些点上产生与原来输入相同的输出。 \gls{tangent_prop}和手动指定转换的数据集增强都要求模型在输入变化的某些特定的方向上保持不变。 \gls{double_backprop}和\gls{adversarial_training}都要求模型对输入所有方向中的变化(只要该变化较小)都应当保持不变。 diff --git a/Chapter8/optimization_for_training_deep_models.tex b/Chapter8/optimization_for_training_deep_models.tex index 5648140..1adc28e 100644 --- a/Chapter8/optimization_for_training_deep_models.tex +++ b/Chapter8/optimization_for_training_deep_models.tex @@ -1085,7 +1085,7 @@ \section{参数初始化策略} 有些启发式方法可用于选择权重的初始大小。 一种初始化$m$个输入和$n$输出的全连接层的权重的启发式方法是从分布$U(-\frac{1}{\sqrt{m}}, \frac{1}{\sqrt{m}})$中采样权重, -而~\cite{Glorot+al-AI-2011-small}建议使用\firstgls{normalized_initialization} +而~\citet{GlorotAISTATS2010-small}建议使用\firstgls{normalized_initialization} \begin{equation} W_{i,j} \sim U \left(-\sqrt{\frac{6}{m+n}}, \sqrt{\frac{6}{m+n}}\right) . \end{equation} @@ -1370,7 +1370,7 @@ \subsection{选择正确的优化算法} \section{二阶近似方法} \label{sec:approximate_second_order_methods} 在本节中,我们会讨论训练\gls{DNN}的二阶方法。 -参考\cite{lecun1998mnist}了解该问题的早期处理方法。 +参考\cite{LeCun+98backprop}了解该问题的早期处理方法。 为表述简单起见,我们只考察\gls{objective_function}为经验风险: \begin{equation} J(\Vtheta) = \SetE_{\RVx, \RSy \sim \hat{p}_{\text{data}}(\Vx,y) } [ L(f(\Vx; \Vtheta), y) ] = @@ -1555,7 +1555,7 @@ \subsection{\glsentrytext{CG}} % -- 306 -- 实践者报告在实践中使用\gls{nonlinear_CG}算法训练\gls{NN}是合理的,尽管在开始\gls{nonlinear_CG}前使用\gls{SGD}迭代若干步来初始化效果更好。 -另外,尽管(非线性)\gls{CG}算法传统上作为批方法,\gls{minibatch}版本已经成功用于训练\gls{NN}~\citep{LeRoux-chapter-2011}。 +另外,尽管(非线性)\gls{CG}算法传统上作为批方法,\gls{minibatch}版本已经成功用于训练\gls{NN}~\citep{Le-ICML2011}。 针对神经网路的\gls{CG}应用早已被提出,例如缩放的\gls{CG}算法\citep{Moller}。 \subsection{\glsentrytext{BFGS}} diff --git a/Chapter9/convolutional_networks.tex b/Chapter9/convolutional_networks.tex index 6c02659..9bc5127 100644 --- a/Chapter9/convolutional_networks.tex +++ b/Chapter9/convolutional_networks.tex @@ -1124,7 +1124,7 @@ \section{卷积网络与深度学习的历史} 它们是将研究大脑获得的深刻理解成功用于机器学习应用的关键例子。 它们也是第一个表现良好的深度模型之一,远远早于任意深度模型被认为是可行的。 \gls{convolutional_network}也是第一个解决重要商业应用的神经网络,并且仍然是当今深度学习商业应用的前沿。 -例如,在20世纪90年代,AT\&T的神经网络研究小组开发了一个用于读取支票的\gls{convolutional_network}\citep{chapter-gradient-document-2001}。 +例如,在20世纪90年代,AT\&T的神经网络研究小组开发了一个用于读取支票的\gls{convolutional_network}\citep{LeCun98-small}。 到90年代末,NEC部署的这个系统已经被用于读取美国10%以上的支票。 后来,微软部署了若干个基于\gls{convolutional_network}的OCR和手写识别系统\citep{simard-03-small}。 关于\gls{convolutional_network}的这种应用和更现代应用的更多细节,参考\chapref{chap:applications}。 diff --git a/README.md b/README.md index d1bbce0..1a9c638 100644 --- a/README.md +++ b/README.md @@ -75,6 +75,7 @@ | [第十八章 面对配分函数](https://exacity.github.io/deeplearningbook-chinese/Chapter18_confronting_the_partition_function/) | @liber145 | | @tankeco | | [第十九章 近似推断](https://exacity.github.io/deeplearningbook-chinese/Chapter19_approximate_inference/) | @futianfan | | @sailordiary, @hengqujushi, huanghaojun | | [第二十章 深度生成模型](https://exacity.github.io/deeplearningbook-chinese/Chapter20_deep_generative_models/) | @swordyork | | | +| 参考文献 | | | @pkuwwt | 我们会在纸质版正式出版的时候,在书中致谢,正式感谢各位作出贡献的同学! @@ -85,7 +86,7 @@ @bengordai @Bojian @JoyFYan @minoriwww @khty2000 @gump88 @zdx3578 @PassStory @imwebson @wlbksy @roachsinai @Elvinczp @endymecy name:YUE-DaJiong @9578577 @linzhp @cnscottzheng @germany-zhu @zhangyafeikimi @showgood163 @gump88 @kangqf @NeutronT @badpoem @kkpoker @Seaball @wheaio @angrymidiao @ZhiweiYang @corenel @zhaoyu611 @SiriusXDJ @dfcv24 EmisXXY FlyingFire vsooda @friskit-china @poerin @ninesunqian @JiaqiYao -@Sofring @wenlei @wizyoung @imageslr @@indam @XuLYC @zhouqingping @freedomRen @runPenguin +@Sofring @wenlei @wizyoung @imageslr @@indam @XuLYC @zhouqingping @freedomRen @runPenguin @pkuwwt 如有遗漏,请务必通知我们,可以发邮件至`echo c3dvcmQueW9ya0BnbWFpbC5jb20K | base64 -d`。 这是我们必须要感谢的,所以不要不好意思。 diff --git a/docs/_posts/2016-12-01-Chapter1_introduction.md b/docs/_posts/2016-12-01-Chapter1_introduction.md index 69d3bda..62d5c3b 100644 --- a/docs/_posts/2016-12-01-Chapter1_introduction.md +++ b/docs/_posts/2016-12-01-Chapter1_introduction.md @@ -414,7 +414,7 @@ McCulloch-Pitts~神经元{cite?}是脑功能的早期模型。 这个算法虽然曾黯然失色不再流行,但截至写书之时,它仍是训练深度模型的主导方法。% ?? 在20世纪90年代,研究人员在使用神经网络进行序列建模的方面取得了重要进展。 -{Hochreiter91}和~{Bengio1994ITNN}指出了对长序列进行建模的一些根本性数学难题,这将在\sec?中描述。 +{Hochreiter91}和~{Bengio-trnn93-small}指出了对长序列进行建模的一些根本性数学难题,这将在\sec?中描述。 {Hochreiter+Schmidhuber-1997}引入长短期记忆网络来解决这些难题。 如今,LSTM~在许多序列建模任务中广泛应用,包括Google的许多自然语言处理任务。 diff --git a/docs/_posts/2016-12-02-Chapter2_linear_algebra.md b/docs/_posts/2016-12-02-Chapter2_linear_algebra.md index 6d91679..3f96b5f 100644 --- a/docs/_posts/2016-12-02-Chapter2_linear_algebra.md +++ b/docs/_posts/2016-12-02-Chapter2_linear_algebra.md @@ -180,7 +180,7 @@ share: false \begin{equation} (\MA\MB)^\top=\MB^\top\MA^\top. \end{equation} -利用向量乘积是标量,标量转置是自身的事实,我们可以证明\eqn?: +利用两个向量点积的结果是标量,标量转置是自身的事实,我们可以证明\eqn?: \begin{equation} \Vx^\top \Vy = \left(\Vx^\top \Vy \right)^\top = \Vy^\top \Vx. \end{equation} diff --git a/docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md b/docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md index 6011938..966d2b0 100644 --- a/docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md +++ b/docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md @@ -237,7 +237,7 @@ Iris(鸢尾花卉)数据集~{cite?}是统计学家和机器学习研究者 有些机器学习算法并不是训练于一个固定的数据集上。 例如,强化学习算法会和环境进行交互,所以学习系统和它的训练过程会有反馈回路。 这类算法超出了本书的范畴。 -请参考~{Sutton+Barto-98}或~{Bertsekas+Tsitsiklis-book1996}了解强化学习相关知识,{Mnih2013}介绍了强化学习方向的深度学习方法。 +请参考~{Sutton+Barto-98}或~{Bertsekas+Tsitsiklis-book1996}了解强化学习相关知识,{Deepmind-atari-arxiv2013}介绍了强化学习方向的深度学习方法。 大部分机器学习算法简单地训练于一个数据集上。 数据集可以用很多不同方式来表示。 @@ -586,7 +586,7 @@ VC\,维定义为该分类器能够分类的训练样本的最大数目。 机器学习保证找到一个在所关注的\emph{大多数}样本上\emph{可能}正确的规则。 可惜,即使这样也不能解决整个问题。 -机器学习的没有免费午餐定理表明,在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。 +机器学习的没有免费午餐定理表明~{cite?},在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。 换言之,在某种意义上,没有一个机器学习算法总是比其他的要好。 我们能够设想的最先进的算法和简单地将所有点归为同一类的简单算法有着相同的平均性能(在所有可能的任务上)。 @@ -1090,7 +1090,7 @@ KL散度被定义为 =& -m \log\sigma - \frac{m}{2} \log(2\pi) - \sum_{i=1}^m \frac{ \norm{\hat{y}^{(i)} - y^{(i)} }^2 }{2\sigma^2}, \end{align} 其中$\hat{y}^{(i)}$是线性回归在第$i$个输入$\Vx^{(i)}$上的输出,$m$是训练样本的数目。 -对比于均方误差的对数似然, +对比均方误差和对数似然, \begin{equation} \text{MSE}_{\text{train}} = \frac{1}{m} \sum_{i=1}^m \norm{\hat{y}^{(i)} - y^{(i)}}^2, \end{equation} @@ -1250,7 +1250,7 @@ $\VLambda_0=\text{diag}(\Vlambda_0)$。 -\frac{1}{2} (\Vw - \Vmu_m)^\Tsp \VLambda_m^{-1} (\Vw - \Vmu_m) \right). \end{align} -所有不包括的参数向量$\Vw$的项都已经被删去了;它们意味着分布的积分必须归一这个事实。 +分布的积分必须归一这个事实意味着要删去所有不包括参数向量$\Vw$的项。 \eqn?显示了如何标准化多元高斯分布。 diff --git a/docs/_posts/2016-12-06-Chapter6_deep_feedforward_networks.md b/docs/_posts/2016-12-06-Chapter6_deep_feedforward_networks.md index 9725479..20fd943 100644 --- a/docs/_posts/2016-12-06-Chapter6_deep_feedforward_networks.md +++ b/docs/_posts/2016-12-06-Chapter6_deep_feedforward_networks.md @@ -71,7 +71,7 @@ share: false 在这种方法中,我们有一个模型$y = f(\Vx;\theta, \Vw) = \phi(\Vx; \theta)^\top \Vw$。 我们现在有两种参数:用于从一大类函数中学习$\phi$的参数$\Vtheta$,以及用于将$\phi(\Vx)$映射到所需的输出的参数$\Vw$。 这是深度前馈网络的一个例子,其中$\phi$定义了一个隐藏层。 -这是三种方法中唯一一种放弃训练问题的凸性的方法,但是利大于弊。 +这是三种方法中唯一一种放弃了训练问题的凸性的,但是利大于弊。 在这种方法中,我们将表示参数化为$\phi(\Vx; \Vtheta)$,并且使用优化算法来寻找$\Vtheta$,使它能够得到一个好的表示。 如果我们想要的话,这种方法也可以通过使它变得高度通用以获得第一种方法的优点——我们只需使用一个非常广泛的函数族$\phi(\Vx; \Vtheta)$。 这种方法也可以获得第二种方法的优点。 @@ -368,7 +368,7 @@ J(\Vtheta) = -\SetE_{\RVx, \RVy \sim \hat{p}_\text{data}} \log p_\text{model} (\ 代价函数的具体形式随着模型而改变,取决于$\log p_\text{model}$的具体形式。 上述方程的展开形式通常会有一些项不依赖于模型的参数,我们可以舍去。 -例如,正如我们在\sec?中看到的,如果$p_\text{model}(\Vy\mid\Vx) = \CalN(\Vy;f(\Vx;\Vtheta), \MI)$,那么我们恢复均方误差代价, +例如,正如我们在\sec?中看到的,如果$p_\text{model}(\Vy\mid\Vx) = \CalN(\Vy;f(\Vx;\Vtheta), \MI)$,那么我们就重新得到了均方误差代价, \begin{equation} J(\theta) = \frac{1}{2} \SetE_{\RVx, \RVy \sim \hat{p}_\text{data}} || \Vy - f(\Vx; \Vtheta) ||^2 + \text{const}, \end{equation} @@ -705,7 +705,7 @@ softmax函数因此提供了argmax的"软化"版本。max函数相应的软化 学习一个比对角矩阵具有更丰富结构的协方差或者精度矩阵是很少见的。 如果协方差矩阵是满的和有条件的,那么参数化的选择就必须要保证预测的协方差矩阵是正定的。 这可以通过写成$\VSigma(\Vx)=\MB(\Vx)\MB^\top (\Vx)$来实现,这里$\MB$是一个无约束的方阵。 -如果矩阵是满秩的,那么一个实际问题是计算代价似然是很高的,计算一个$d\times d$的矩阵的行列式或者$\VSigma(\Vx)$的逆(或者等价地并且更常用地,对它特征值分解或者$\MB(\Vx)$的特征值分解)需要$O(d^3)$的计算量。 +如果矩阵是满秩的,那么一个实际问题是计算似然的代价是很高的,计算一个$d\times d$的矩阵的行列式或者$\VSigma(\Vx)$的逆(或者等价地并且更常用地,对它特征值分解或者$\MB(\Vx)$的特征值分解)需要$O(d^3)$的计算量。 @@ -1406,7 +1406,7 @@ $\CalB$中的计算和$\CalG$中的计算顺序完全相反,而且$\CalB$中 \end{algorithmic} \end{algorithm} -\alg?随后说明了将反向传播应用于改图所需的相关计算。 +\alg?随后说明了将反向传播应用于该图所需的相关计算。 \begin{algorithm}[htbp] \caption{深度神经网络中\alg?的反向计算,它不止使用了输入$\Vx $和目标$\Vy$。 @@ -1652,7 +1652,7 @@ $\CalB$中的计算和$\CalG$中的计算顺序完全相反,而且$\CalB$中 \caption{用于计算代价函数的计算图,这个代价函数是使用交叉熵损失以及权重衰减训练我们的单层~MLP~示例所产生的。} \end{figure} -这个示例的梯度计算图实在太大,以致于绘制或者阅读都将是乏味的。 +这个示例的梯度计算图实在太大,以致绘制或者阅读都将是乏味的。 这显示出了反向传播算法的优点之一,即它可以自动生成梯度,而这种计算对于软件工程师来说需要进行直观但冗长的手动推导。 我们可以通过观察\fig?中的正向传播图来粗略地描述反向传播算法的行为。 diff --git a/docs/_posts/2016-12-07-Chapter7_regularization.md b/docs/_posts/2016-12-07-Chapter7_regularization.md index 6b513ae..c6b463c 100644 --- a/docs/_posts/2016-12-07-Chapter7_regularization.md +++ b/docs/_posts/2016-12-07-Chapter7_regularization.md @@ -526,7 +526,7 @@ softmax函数~永远无法真正预测0概率或1概率,因此它会继续学 {Russ+Geoff-nips-2007}描述了一种学习回归核机器中核函数的方法,其中建模$P(\RVx)$时使用的未标记样本大大提高了$P(\RVy \mid \RVx)$的效果。 -更多半监督学习的信息,请参阅~{SSL-Book-2006}。 +更多半监督学习的信息,请参阅~{Chapelle-2006}。 # 多任务学习 diff --git a/docs/_posts/2016-12-08-Chapter8_optimization_for_training_deep_models.md b/docs/_posts/2016-12-08-Chapter8_optimization_for_training_deep_models.md index bedd5b8..fb4cc9f 100644 --- a/docs/_posts/2016-12-08-Chapter8_optimization_for_training_deep_models.md +++ b/docs/_posts/2016-12-08-Chapter8_optimization_for_training_deep_models.md @@ -1084,7 +1084,7 @@ Nesterov 动量中,梯度计算在施加当前速度之后。 有些启发式方法可用于选择权重的初始大小。 一种初始化$m$个输入和$n$输出的全连接层的权重的启发式方法是从分布$U(-\frac{1}{\sqrt{m}}, \frac{1}{\sqrt{m}})$中采样权重, -而~{Glorot+al-AI-2011-small}建议使用标准初始化, % ? +而~{GlorotAISTATS2010-small}建议使用标准初始化, % ? \begin{equation} W_{i,j} \sim U \left(-\sqrt{\frac{6}{m+n}}, \sqrt{\frac{6}{m+n}}\right) . \end{equation} @@ -1371,7 +1371,7 @@ Adam通常被认为对超参数的选择相当鲁棒,尽管学习率有时需 # 二阶近似方法 在本节中,我们会讨论训练深度神经网络的二阶方法。 -参考{lecun1998mnist}了解该问题的早期处理方法。 +参考{LeCun+98backprop}了解该问题的早期处理方法。 为表述简单起见,我们只考察目标函数为经验风险: \begin{equation} J(\Vtheta) = \SetE_{\RVx, \RSy \sim \hat{p}_{\text{data}}(\Vx,y) } [ L(f(\Vx; \Vtheta), y) ] = diff --git a/docs/_posts/2016-12-10-Chapter10_sequence_modeling_rnn.md b/docs/_posts/2016-12-10-Chapter10_sequence_modeling_rnn.md index 9d860bc..c367a1c 100644 --- a/docs/_posts/2016-12-10-Chapter10_sequence_modeling_rnn.md +++ b/docs/_posts/2016-12-10-Chapter10_sequence_modeling_rnn.md @@ -685,9 +685,9 @@ RNN~可以接收向量序列$\Vx^{(t)}$作为输入,而不是仅接收单个 在这些操作中引入深度会有利的吗? 实验证据{cite?}强烈暗示理应如此。 实验证据与我们需要足够的深度以执行所需映射的想法一致。 -读者可以参考~{Schmidhuber96,ElHihi+Bengio-nips8}或~{Jaeger2007}了解更早的关于深度~RNN~的研究。 +读者可以参考~{Schmidhuber92,ElHihi+Bengio-nips8}或~{Jaeger2007}了解更早的关于深度~RNN~的研究。 -{Graves-arxiv2013}第一个展示了将~RNN~的状态分为多层的显著好处,如\fig?~\emph{(左)}。 +{Graves-et-al-ICASSP2013}第一个展示了将~RNN~的状态分为多层的显著好处,如\fig?~\emph{(左)}。 我们可以认为,在\fig?(a)所示层次结构中较低的层起到了将原始输入转化为对更高层的隐藏状态更合适表示的作用。 {Pascanu-et-al-ICLR2014}更进一步提出在上述三个块中各使用一个单独的~MLP(可能是深度的),如\fig?(b)所示。 考虑表示容量,我们建议在这三个步中都分配足够的容量,但增加深度可能会因为优化困难而损害学习效果。 @@ -980,7 +980,7 @@ $d$~时间步的跳跃连接可以确保单元总能被先前的$d$个时间步 其中一个关键扩展是使自循环的权重视上下文而定,而不是固定的{cite?}。 门控此自循环(由另一个隐藏单元控制)的权重,累积的时间尺度可以动态地改变。 在这种情况下,即使是具有固定参数的~LSTM,累积的时间尺度也可以因输入序列而改变,因为时间常数是模型本身的输出。 -LSTM~已经在许多应用中取得重大成功,如无约束手写识别{cite?}、语音识别{cite?}、手写识别{cite?}、机器翻译{cite?}、为图像生成标题{cite?}和解析{cite?}。 +LSTM~已经在许多应用中取得重大成功,如无约束手写识别{cite?}、语音识别{cite?}、手写生成{cite?}、机器翻译{cite?}、为图像生成标题{cite?}和解析{cite?}。 diff --git a/docs/_posts/2016-12-12-Chapter12_applications.md b/docs/_posts/2016-12-12-Chapter12_applications.md index 2096d55..cbeae16 100644 --- a/docs/_posts/2016-12-12-Chapter12_applications.md +++ b/docs/_posts/2016-12-12-Chapter12_applications.md @@ -247,7 +247,7 @@ GPU~另一个常见的设定是使一个组中的所有线程都同时执行同 当选通器决策的数量很小时,这个策略效果会很好,因为它不是组合的。 但是当我们想要选择不同的单元或参数子集时,不可能使用"软开关",因为它需要枚举(和计算输出)所有的选通器配置。 为了解决这个问题,许多工作探索了几种方法来训练组合的选通器。 -{bengio-arxiv13-condcomp}提出使用选通器概率梯度的若干估计器,而~{Bacon-et-al-RLDM2015,BengioE-et-al-arXiv2015}使用强化学习技术(策略梯度)来学习一种条件的~Dropout~形式(作用于隐藏单元块),减少了实际的计算成本,而不会对近似的质量产生负面影响。 +{bengio2013estimating}提出使用选通器概率梯度的若干估计器,而~{Bacon-et-al-RLDM2015,BengioE-et-al-arXiv2015}使用强化学习技术(策略梯度)来学习一种条件的~Dropout~形式(作用于隐藏单元块),减少了实际的计算成本,而不会对近似的质量产生负面影响。 @@ -562,7 +562,7 @@ GMM-HMM~模型将语音信号视作由如下过程生成:首先,一个~HMM~ 完全抛弃~HMM~并转向研究端到端的深度学习语音识别系统是至今仍然活跃的另一个重要推动。 -这个领域第一个主要的突破是~{Graves-et-al-ICASSP2013},其中训练了一个深度的长短期记忆循环神经网络(见\sec?),使用了帧-音素排列的~MAP~推断,就像~{chapter-gradient-document-2001}以及CTC框架~{cite?}中一样。 +这个领域第一个主要的突破是~{Graves-et-al-ICASSP2013},其中训练了一个深度的长短期记忆循环神经网络(见\sec?),使用了帧-音素排列的~MAP~推断,就像~{LeCun98-small}以及CTC框架~{cite?}中一样。 一个深度循环神经网络~{cite?}每个时间步的各层都有状态变量,两种展开图的方式导致两种不同深度:一种是普通的根据层的堆叠衡量的深度,另一种根据时间展开衡量的深度。 这个工作把TIMIT数据集上音素的错误率记录降到了的新低$17.7$\%。 关于应用于其他领域的深度循环神经网络的变种可以参考~{Pascanu-et-al-ICLR2014,Chung-et-al-NIPSDL2014-small}。 @@ -712,7 +712,7 @@ $n$-gram~模型最大似然的基本限制是,在许多情况下从训练集 使用分布式表示来改进自然语言处理模型的基本思想不必局限于神经网络。 -它还可以用于图模型,其中分布式表示是多个潜变量的形式。 +它还可以用于图模型,其中分布式表示是多个潜变量的形式{cite?}。 ## 高维输出 @@ -942,7 +942,7 @@ $n$-gram~模型相对神经网络的主要优点是~$n$-gram~模型具有更高 最早的机器翻译神经网络探索中已经纳入了编码器和解码器的想法(Allen 1987; Chrisman 1991; Forcada and Ñeco 1997),而翻译中神经网络的第一个大规模有竞争力的用途是通过神经语言模型升级翻译系统的语言模型~{cite?}。 之前,大多数机器翻译系统在该组件使用~$n$-gram~模型。 -机器翻译中基于~$n$-gram~的模型不仅包括传统的回退~$n$-gram~模型,而且包括\textbf{最大熵语言模型}(maximum entropy language models),其中给定上下文中常见的词,affine-softmax层预测下一个词。 +机器翻译中基于~$n$-gram~的模型不仅包括传统的回退~$n$-gram~模型~{cite?},而且包括\textbf{最大熵语言模型}(maximum entropy language models)~{cite?},其中给定上下文中常见的词,affine-softmax层预测下一个词。 传统语言模型仅仅报告自然语言句子的概率。 因为机器翻译涉及给定输入句子产生输出句子,所以将自然语言模型扩展为条件的是有意义的。 diff --git a/docs/_posts/2016-12-13-Chapter13_linear_factor_models.md b/docs/_posts/2016-12-13-Chapter13_linear_factor_models.md index 8435a4a..ebdd51c 100644 --- a/docs/_posts/2016-12-13-Chapter13_linear_factor_models.md +++ b/docs/_posts/2016-12-13-Chapter13_linear_factor_models.md @@ -94,12 +94,12 @@ share: false \RVx = \MW\RVh + \Vb + \sigma\RVz, \end{align} 其中$\RVz \sim \CalN(\Vz;\mathbf{0},\MI)$是高斯噪声。 -之后~{tipping99mixtures}提出了一种迭代的~EM~算法来估计参数$\MW$和$\sigma^2$。 +之后~{Tipping99}提出了一种迭代的~EM~算法来估计参数$\MW$和$\sigma^2$。 这个概率PCA模型利用了这样一种观察现象:除了一些微小残余的重构误差(至多为$\sigma^2$),数据中的大多数变化可以由潜变量 $\Vh$描述。 -通过{tipping99mixtures}的研究我们可以发现,当$\sigma \xrightarrow{} 0$时,概率PCA~退化为~PCA。 +通过{Tipping99}的研究我们可以发现,当$\sigma \xrightarrow{} 0$时,概率PCA~退化为~PCA。 在这种情况下,给定$\Vx$情况下$\Vh$的条件期望等于将$\Vx - \Vb$投影到$\MW$的$d$列所生成的空间上,与~PCA~一样。 @@ -179,7 +179,7 @@ ICA~的另一个非线性扩展是非线性独立成分估计方法~{cite?}, -ICA~的另一个推广是通过鼓励组内统计依赖关系、抑制组间依赖关系来学习特征组。 +ICA~的另一个推广是通过鼓励组内统计依赖关系、抑制组间依赖关系来学习特征组{cite?}。 当相关单元的组被选为不重叠时,这被称为独立子空间分析。 我们还可以向每个隐藏单元分配空间坐标,并且空间上相邻的单元组形成一定程度的重叠。 这能够鼓励相邻的单元学习类似的特征。 diff --git a/docs/_posts/2016-12-19-Chapter19_approximate_inference.md b/docs/_posts/2016-12-19-Chapter19_approximate_inference.md index 91c4702..ca66187 100644 --- a/docs/_posts/2016-12-19-Chapter19_approximate_inference.md +++ b/docs/_posts/2016-12-19-Chapter19_approximate_inference.md @@ -896,18 +896,3 @@ $\CalL(\Vv,\Vtheta,q)\approx \log p(\Vv;\Vtheta)$和$\log p(\Vv;\Vtheta)\ll \log 其中许多模型将在下一章中描述。 - - - - - - - - - - - - - - -