Skip to content

Commit

Permalink
update reference exacity#90
Browse files Browse the repository at this point in the history
  • Loading branch information
SwordYork committed Jun 11, 2017
1 parent 60de433 commit 087b476
Show file tree
Hide file tree
Showing 23 changed files with 62 additions and 91 deletions.
2 changes: 1 addition & 1 deletion Chapter1/introduction.tex
Original file line number Diff line number Diff line change
Expand Up @@ -417,7 +417,7 @@ \subsection{神经网络的众多名称和命运变迁}
这个算法虽然曾黯然失色不再流行,但截至写书之时,它仍是训练深度模型的主导方法。% ??

在20世纪90年代,研究人员在使用\gls{NN}进行序列建模的方面取得了重要进展。
\citet{Hochreiter91}和~\citet{Bengio1994ITNN}指出了对长序列进行建模的一些根本性数学难题,这将在\secref{sec:the_challenge_of_long_term_dependencies}中描述。
\citet{Hochreiter91}和~\citet{Bengio-trnn93-small}指出了对长序列进行建模的一些根本性数学难题,这将在\secref{sec:the_challenge_of_long_term_dependencies}中描述。
\citet{Hochreiter+Schmidhuber-1997}引入\firstall{LSTM}网络来解决这些难题。
如今,\glssymbol{LSTM}~在许多序列建模任务中广泛应用,包括Google的许多自然语言处理任务。

Expand Down
12 changes: 6 additions & 6 deletions Chapter10/sequence_modeling_rnn.tex
Original file line number Diff line number Diff line change
Expand Up @@ -692,11 +692,11 @@ \section{深度\glsentrytext{recurrent_network}}
通常,这是由学成的仿射变换和一个固定非线性表示组成的变换。

在这些操作中引入深度会有利的吗?
实验证据\citep{Graves-arxiv2013,Pascanu-et-al-ICLR2014}强烈暗示理应如此。
实验证据\citep{Graves-et-al-ICASSP2013,Pascanu-et-al-ICLR2014}强烈暗示理应如此。
实验证据与我们需要足够的深度以执行所需映射的想法一致。
读者可以参考~\cite{Schmidhuber96,ElHihi+Bengio-nips8}或~\cite{Jaeger2007}了解更早的关于深度~\glssymbol{RNN}~的研究。
读者可以参考~\cite{Schmidhuber92,ElHihi+Bengio-nips8}或~\cite{Jaeger2007}了解更早的关于深度~\glssymbol{RNN}~的研究。

\cite{Graves-arxiv2013}第一个展示了将~\glssymbol{RNN}~的状态分为多层的显著好处,如\figref{fig:chap10_deep}~\emph{(左)}。
\cite{Graves-et-al-ICASSP2013}第一个展示了将~\glssymbol{RNN}~的状态分为多层的显著好处,如\figref{fig:chap10_deep}~\emph{(左)}。
我们可以认为,在\figref{fig:chap10_deep}(a)所示层次结构中较低的层起到了将原始输入转化为对更高层的隐藏状态更合适表示的作用。
\cite{Pascanu-et-al-ICLR2014}更进一步提出在上述三个块中各使用一个单独的~\glssymbol{MLP}(可能是深度的),如\figref{fig:chap10_deep}(b)所示。
考虑表示容量,我们建议在这三个步中都分配足够的容量,但增加深度可能会因为优化困难而损害学习效果。
Expand Down Expand Up @@ -836,7 +836,7 @@ \section{\glsentrytext{long_term_dependency}的挑战}
\section{\glsentrytext{ESN}}
\label{sec:echo_state_networks}
$\Vh^{(t-1)}$$\Vh^{(t)}$的循环权重映射以及从$\Vx^{(t)}$$\Vh^{(t)}$的输入权重映射是\gls{recurrent_network}中最难学习的参数。
研究者\citep{Jaeger-NIPS2002,Maass-et-al-2002,Jaeger+Haas-2004}提出避免这种困难的方法是设定循环\gls{hidden_unit},使其能很好地捕捉过去输入历史,并且\emph{只学习输出权重}。
研究者\citep{Jaeger-NIPS2002,Maass-et-al-2002,Jaeger+Haas-2004,Jaeger-2007}提出避免这种困难的方法是设定循环\gls{hidden_unit},使其能很好地捕捉过去输入历史,并且\emph{只学习输出权重}。
\firstgls{ESN}或~\glssymbol{ESN}~\citep{Jaeger+Haas-2004,Jaeger-2007},以及\firstgls{liquid_state_machines}\citep{Maass-et-al-2002}分别独立地提出了这种想法。
后者是类似的,只不过它使用脉冲神经元(二值输出)而不是~\glssymbol{ESN}~中的连续\gls{hidden_unit}。
\glssymbol{ESN}~和\gls{liquid_state_machines}都被称为\firstgls{reservoir_computing}\citep{Lukosevicius+Jaeger-2009},因为\gls{hidden_unit}形成了可能捕获输入历史不同方面的临时特征池。
Expand Down Expand Up @@ -913,7 +913,7 @@ \subsection{时间维度的\glsentrytext{skip_connection}}
增加从遥远过去的变量到目前变量的直接连接是得到粗时间尺度的一种方法。
使用这样\gls{skip_connection}的想法可以追溯到\cite{Lin-ieeetnn96},紧接是向\gls{feedforward_network}引入延迟的想法\citep{Lang+Hinton88}。
在普通的\gls{recurrent_network}中,循环从时刻$t$的单元连接到时刻$t+1$单元。
构造较长的延迟\gls{recurrent_network}是可能的\citep{Bengio91z}。
构造较长的延迟\gls{recurrent_network}是可能的\citep{Bengio91}。

正如我们在\secref{sec:long_term_dependencies}看到,\gls{gradient}可能\emph{关于时间步数}呈指数消失或爆炸。
\citep{Lin-ieeetnn96}引入了$d$延时的循环连接以减轻这个问题。
Expand Down Expand Up @@ -983,7 +983,7 @@ \subsection{\glssymbol{LSTM}}
其中一个关键扩展是使自循环的权重视上下文而定,而不是固定的\citep{Gers-et-al-2000}。
\gls{gated}此自循环(由另一个\gls{hidden_unit}控制)的权重,累积的时间尺度可以动态地改变。
在这种情况下,即使是具有固定参数的~\glssymbol{LSTM},累积的时间尺度也可以因输入序列而改变,因为时间常数是模型本身的输出。
\glssymbol{LSTM}~已经在许多应用中取得重大成功,如无约束手写识别\citep{Graves+Schmidhuber-2009}、语音识别\citep{Graves-et-al-ICASSP2013,Graves+Jaitly-ICML2014}、手写识别\citep{Graves-et-al-ICASSP2013}、机器翻译\citep{Sutskever-et-al-NIPS2014}、为图像生成标题\citep{Kiros-et-al-arxiv2014,Vinyals-et-al-arxiv2014,Xu-et-al-ICML2015}和解析\citep{Vinyals2014}。
\glssymbol{LSTM}~已经在许多应用中取得重大成功,如无约束手写识别\citep{Graves-et-al-2009}、语音识别\citep{Graves-et-al-ICASSP2013,Graves+Jaitly-ICML2014}、手写生成\citep{Graves-arxiv2013}、机器翻译\citep{Sutskever-et-al-NIPS2014}、为图像生成标题\citep{Kiros-et-al-arxiv2014,Vinyals-et-al-arxiv2014,Xu-et-al-ICML2015}和解析\citep{Vinyals2014}。

% -- 397 --

Expand Down
14 changes: 7 additions & 7 deletions Chapter12/applications.tex
Original file line number Diff line number Diff line change
Expand Up @@ -148,7 +148,7 @@ \subsection{大规模的分布式实现}
% 435


这个问题可以使用\firstgls{ASGD}\citep{Bengio+Bengio96,Recht-et-al-NIPS2011}解决。
这个问题可以使用\firstgls{ASGD}\citep{BenDucVin01-small,Recht-et-al-NIPS2011}解决。
在这个方法中,几个处理器的核共用存有参数的内存。
每一个核在无锁情况下读取这些参数并计算对应的梯度,然后在无锁状态下更新这些参数。
%这种方法减少了每一个\gls{GD}所获得的平均提升,因为一些核把其他的核所更新的参数(写)覆盖了。
Expand Down Expand Up @@ -199,7 +199,7 @@ \subsection{\glsentrytext{dynamic_structure}}
一般来说,加速数据处理系统的一种策略是构造一个系统,这个系统用\firstgls{dynamic_structure}描述图中处理输入的所需计算过程。
在给定一个输入的情况中,数据处理系统可以动态地决定运行神经网络系统的哪一部分。
单个神经网络内部同样也存在\gls{dynamic_structure},给定输入信息,决定特征(\gls{hidden_unit})哪一部分用于计算。
这种神经网络中的\gls{dynamic_structure}有时被称为\firstgls{conditional_computation}\citep{bengio2013estimating,bengio-arxiv13-condcomp}。
这种神经网络中的\gls{dynamic_structure}有时被称为\firstgls{conditional_computation}\citep{Bengio-chapterSLSP-2013,bengio2013estimating}。
由于模型结构许多部分可能只跟输入的一小部分有关,只计算那些需要的特征可以起到加速的目的。
% 436

Expand Down Expand Up @@ -240,7 +240,7 @@ \subsection{\glsentrytext{dynamic_structure}}
\gls{gater}决策的数量很小时,这个策略效果会很好,因为它不是组合的。
但是当我们想要选择不同的单元或参数子集时,不可能使用``软开关'',因为它需要枚举(和计算输出)所有的\gls{gater}配置。
为了解决这个问题,许多工作探索了几种方法来训练组合的\gls{gater}。
\citet{bengio-arxiv13-condcomp}提出使用\gls{gater}概率梯度的若干估计器,而~\citet{Bacon-et-al-RLDM2015,BengioE-et-al-arXiv2015}使用\gls{RL}技术(\firstgls{policy_gradient})来学习一种条件的~\gls{dropout}~形式(作用于\gls{hidden_unit}块),减少了实际的计算成本,而不会对近似的质量产生负面影响。
\citet{bengio2013estimating}提出使用\gls{gater}概率梯度的若干估计器,而~\citet{Bacon-et-al-RLDM2015,BengioE-et-al-arXiv2015}使用\gls{RL}技术(\firstgls{policy_gradient})来学习一种条件的~\gls{dropout}~形式(作用于\gls{hidden_unit}块),减少了实际的计算成本,而不会对近似的质量产生负面影响。
% 438


Expand Down Expand Up @@ -490,7 +490,7 @@ \subsection{\glsentrytext{dataset_augmentation}}
\gls{object_recognition}这个分类任务特别适合于这种形式的\gls{dataset_augmentation},因为类别信息对于许多变换是不变的,而我们可以简单地对输入应用诸多几何变换。
如前所述,分类器可以受益于随机转换或者旋转,某些情况下输入的翻转可以增强数据集。
在专门的\gls{CV}应用中,存在很多更高级的用以\gls{dataset_augmentation}的变换。
这些方案包括图像中颜色的随机扰动~\citep{Krizhevsky-2012},以及对输入的非线性几何变形~\citep{chapter-gradient-document-2001}。
这些方案包括图像中颜色的随机扰动~\citep{Krizhevsky-2012},以及对输入的非线性几何变形~\citep{LeCun98-small}。
% 445


Expand Down Expand Up @@ -557,7 +557,7 @@ \section{\glsentrytext{SR}}
% 448

完全抛弃~\glssymbol{HMM}~并转向研究\gls{end_to_end}\gls{DL}\gls{SR}系统是至今仍然活跃的另一个重要推动。
这个领域第一个主要的突破是~\citet{Graves-et-al-ICASSP2013},其中训练了一个深度的\gls{LSTM}\gls{RNN}(见\secref{sec:the_long_short_term_memory_and_other_gated_rnns}),使用了帧-\gls{phoneme}排列的~\glssymbol{MAP}~推断,就像~\citet{chapter-gradient-document-2001}以及CTC框架~\citep{Graves-et-al-2006,Graves-book2012}中一样。
这个领域第一个主要的突破是~\citet{Graves-et-al-ICASSP2013},其中训练了一个深度的\gls{LSTM}\gls{RNN}(见\secref{sec:the_long_short_term_memory_and_other_gated_rnns}),使用了帧-\gls{phoneme}排列的~\glssymbol{MAP}~推断,就像~\citet{LeCun98-small}以及CTC框架~\citep{Graves-et-al-2006,Graves-book2012}中一样。
一个深度\gls{RNN}~\citep{Graves-et-al-ICASSP2013}每个\gls{time_step}的各层都有状态变量,两种\gls{unfolded_graph}的方式导致两种不同深度:一种是普通的根据层的堆叠衡量的深度,另一种根据时间\gls{unfolding}衡量的深度。
这个工作把TIMIT数据集上\gls{phoneme}的错误率记录降到了的新低$17.7$\%
关于应用于其他领域的深度\gls{RNN}的变种可以参考~\citet{Pascanu-et-al-ICLR2014,Chung-et-al-NIPSDL2014-small}。
Expand Down Expand Up @@ -707,7 +707,7 @@ \subsection{\glsentrytext{NLM}}
% -- 452 --

使用\gls{distributed_representation}来改进\gls{NLP}模型的基本思想不必局限于\gls{NN}。
它还可以用于\gls{graphical_model},其中\gls{distributed_representation}是多个\gls{latent_variable}的形式。
它还可以用于\gls{graphical_model},其中\gls{distributed_representation}是多个\gls{latent_variable}的形式\citep{Mnih+Hinton-2007}

\subsection{高维输出}
\label{sec:high_dimensional_outputs}
Expand Down Expand Up @@ -937,7 +937,7 @@ \subsection{\glsentrytext{NMT}}
最早的机器翻译\gls{NN}探索中已经纳入了\gls{encoder}和\gls{decoder}的想法(Allen 1987; Chrisman 1991; Forcada
and Ñeco 1997),而翻译中\gls{NN}的第一个大规模有竞争力的用途是通过\gls{NLM}升级翻译系统的\gls{language_model}~\citep{Schwenk-et-al-IWSLT2006,Schwenk-2010}。
之前,大多数机器翻译系统在该组件使用~\gls{n_gram}~模型。
机器翻译中基于~\gls{n_gram}~的模型不仅包括传统的回退~\gls{n_gram}~模型,而且包括\textbf{最大熵语言模型}(maximum entropy language models),其中给定上下文中常见的词,affine-softmax层预测下一个词。
机器翻译中基于~\gls{n_gram}~的模型不仅包括传统的回退~\gls{n_gram}~模型~\citep{Jelinek+Mercer80,Katz87,Chen+Goodman99},而且包括\textbf{最大熵语言模型}(maximum entropy language models)~\citep{MaxEnt96},其中给定上下文中常见的词,affine-softmax层预测下一个词。

传统\gls{language_model}仅仅报告自然语言句子的概率。
因为机器翻译涉及给定输入句子产生输出句子,所以将自然\gls{language_model}扩展为条件的是有意义的。
Expand Down
6 changes: 3 additions & 3 deletions Chapter13/linear_factor_models.tex
Original file line number Diff line number Diff line change
Expand Up @@ -99,12 +99,12 @@ \section{\glsentrytext{PPCA}和\glsentrytext{FA}}
\RVx = \MW\RVh + \Vb + \sigma\RVz,
\end{align}
其中$\RVz \sim \CalN(\Vz;\mathbf{0},\MI)$是高斯噪声。
之后~\citet{tipping99mixtures}提出了一种迭代的~\glssymbol{EM}~算法来估计参数$\MW$$\sigma^2$
之后~\citet{Tipping99}提出了一种迭代的~\glssymbol{EM}~算法来估计参数$\MW$$\sigma^2$
% 481


这个\firstgls{PPCA}模型利用了这样一种观察现象:除了一些微小残余的\firstgls{reconstruction_error}(至多为$\sigma^2$),数据中的大多数变化可以由\gls{latent_variable} $\Vh$描述。
通过\citet{tipping99mixtures}的研究我们可以发现,当$\sigma \xrightarrow{} 0$时,\gls{PPCA}~退化为~\glssymbol{PCA}。
通过\citet{Tipping99}的研究我们可以发现,当$\sigma \xrightarrow{} 0$时,\gls{PPCA}~退化为~\glssymbol{PCA}。
在这种情况下,给定$\Vx$情况下$\Vh$的条件期望等于将$\Vx - \Vb$投影到$\MW$$d$列所生成的空间上,与~\glssymbol{PCA}~一样。
% 481

Expand Down Expand Up @@ -183,7 +183,7 @@ \section{\glsentrytext{ICA}}
% 483


\glssymbol{ICA}~的另一个推广是通过鼓励组内统计依赖关系、抑制组间依赖关系来学习特征组。
\glssymbol{ICA}~的另一个推广是通过鼓励组内统计依赖关系、抑制组间依赖关系来学习特征组\citep{hyvarinen1999emergence,HyvarinenA2001}
当相关单元的组被选为不重叠时,这被称为\firstgls{ISA}。
我们还可以向每个\gls{hidden_unit}分配空间坐标,并且空间上相邻的单元组形成一定程度的重叠。
这能够鼓励相邻的单元学习类似的特征。
Expand Down
4 changes: 2 additions & 2 deletions Chapter15/representation_learning.tex
Original file line number Diff line number Diff line change
Expand Up @@ -135,7 +135,7 @@ \section{\glsentrytext{greedy_layer_wise_unsupervised_pretraining}}


\gls{greedy_layer_wise_unsupervised_pretraining}也能用作其他\gls{unsupervised_learning}算法的初始化,比如深度\gls{AE}~\citep{Hinton-Science2006}和具有很多\gls{latent_variable}层的概率模型。
这些\gls{model}包括\gls{DBN}~\citep{Hinton06-small}和\gls{DBM}~\citep{Salakhutdinov+Hinton-2009-small}。
这些\gls{model}包括\gls{DBN}~\citep{Hinton06-small}和\gls{DBM}~\citep{SalHinton09}。
这些\gls{DGM}会在\chapref{chap:deep_generative_models}中讨论。
% 520 mid

Expand Down Expand Up @@ -880,7 +880,7 @@ \section{得益于深度的指数增益}
% 544 head

\secref{sec:universal_approximation_properties_and_depth}中,我们看到确定性\gls{feedforward_network}是函数的\gls{universal_approximator}。
许多具有单个\gls{hidden_layer}(\gls{latent_variable})的\gls{structured_probabilistic_models}(包括\gls{RBM},\gls{DBN})是概率分布的\gls{universal_approximator}~\citep{LeRoux-Bengio-2007-TR,Montufar-2011,Montufar-et-al-NIPS2014,Krause-et-al-ICML2013}。
许多具有单个\gls{hidden_layer}(\gls{latent_variable})的\gls{structured_probabilistic_models}(包括\gls{RBM},\gls{DBN})是概率分布的\gls{universal_approximator}~\citep{LeRoux-Bengio-2008,LeRoux+Bengio-2010,Montufar-2011,Montufar-arxiv2013,Krause-et-al-ICML2013}。

% 544 mid

Expand Down
2 changes: 1 addition & 1 deletion Chapter17/monte_carlo_methods.tex
Original file line number Diff line number Diff line change
Expand Up @@ -503,7 +503,7 @@ \subsection{不同\gls{mode}之间通过\glsentrytext{tempering}来\glsentrytext
其中\gls{markov_chain}并行地模拟许多不同\gls{temperature}的不同状态。
最高\gls{temperature}的状态\gls{mixing}较慢,相比之下最低\gls{temperature}的状态,即\gls{temperature}为$1$时,采出了精确的样本。
转移算子包括了两个\gls{temperature}之间的随机跳转,所以一个高\gls{temperature}状态分布槽中的样本有足够大的概率跳转到低\gls{temperature}分布的槽中。
这个方法也被应用到了\,\glssymbol{RBM}中~\citep{Desjardins+al-2010-small,Cho10IJCNN}。
这个方法也被应用到了\,\glssymbol{RBM}中~\citep{desjardins2010tempered,Cho10IJCNN}。
尽管\gls{tempering}这种方法前景可期,现今它仍然无法让我们在采样复杂的\gls{energy_based_model}中更进一步。
一个可能的原因是在\firstgls{critical_temperatures}时\gls{temperature}转移算子必须设置得非常慢(因为\gls{temperature}需要逐渐下降)来确保\gls{tempering}的有效性。
% 594
Expand Down
17 changes: 1 addition & 16 deletions Chapter19/approximate_inference.tex
Original file line number Diff line number Diff line change
Expand Up @@ -890,7 +890,7 @@ \subsection{\glsentrytext{learned}推断的其他形式}
% 644


近来\gls{learned}\gls{approximate_inference}已经成为了\gls{VAE}形式的\gls{generative_model}中的主要方法之一 \citep{Kingma+Welling-ICLR2014,Rezende-et-al-ICML2014}。
近来\gls{learned}\gls{approximate_inference}已经成为了\gls{VAE}形式的\gls{generative_model}中的主要方法之一 \citep{Kingma-arxiv2013,Rezende-et-al-ICML2014}。
在这种优美的方法中,不需要为推断网络构造显式的目标。
反之,推断网络仅仅被用来定义$\CalL$,然后调整推断网络的参数来增大$\CalL$
我们将在\secref{sec:variational_autoencoders}中详细介绍这种模型。
Expand All @@ -899,18 +899,3 @@ \subsection{\glsentrytext{learned}推断的其他形式}
我们可以使用\gls{approximate_inference}来训练和使用很多不同的模型。
其中许多模型将在下一章中描述。
% 644















2 changes: 1 addition & 1 deletion Chapter3/probability_and_information_theory.tex
Original file line number Diff line number Diff line change
Expand Up @@ -544,7 +544,7 @@ \section{常用函数的有用性质}
\label{fig:chap3_sigmoid_color}
\end{figure}

另外一个经常遇到的函数是\firstgls{softplus_function}\citep{secondorder:2001:nips}:
另外一个经常遇到的函数是\firstgls{softplus_function}\citep{Dugas01}:
\begin{equation}
\zeta(x) = \log(1+\exp(x)).
\end{equation}
Expand Down
Loading

0 comments on commit 087b476

Please sign in to comment.