Skip to content

Commit

Permalink
modify font
Browse files Browse the repository at this point in the history
  • Loading branch information
SwordYork committed May 7, 2017
1 parent 4f9fca0 commit ba908e3
Show file tree
Hide file tree
Showing 10 changed files with 19 additions and 19 deletions.
2 changes: 1 addition & 1 deletion Chapter17/monte_carlo_methods.tex
Original file line number Diff line number Diff line change
Expand Up @@ -457,7 +457,7 @@ \section{不同的\glsentrytext{mode}之间的\glsentrytext{mixing}挑战}
由于\,\gls{gibbs_sampling}作用于一个深度图模型,相似度更多地是基于语义而非原始视觉特征。
但是对于吉布斯链来说从分布的一个\gls{mode}转移到另一个仍然是很困难的,比如说改变数字。
\emph{(右)}从\gls{generative_adversarial_networks}中抽出的连续原始样本。
因为\gls{ancestral_sampling}生成的样本之间互相独立,所以不存在\gls{mixing}问题。
因为\gls{ancestral_sampling}生成的样本之间互相独立,所以不存在\gls{mixing}问题。}
\label{fig:chap17_fig-dbm-bad-mixing}
\end{figure}
% 593 end
Expand Down
6 changes: 3 additions & 3 deletions Chapter4/numerical_computation.tex
Original file line number Diff line number Diff line change
Expand Up @@ -26,7 +26,7 @@ \section{\glsentrytext{overflow}和\glsentrytext{underflow}}
当大量级的数被近似为$\infty$$-\infty$时发生\gls{overflow}。
进一步的运算通常会导致这些无限值变为非数字。

必须对\gls{overflow}和\gls{underflow}进行数值稳定的一个例子是\firstgls{softmax}。
必须对\gls{overflow}和\gls{underflow}进行数值稳定的一个例子是\textbf{softmax}。
\gls{softmax}经常用于预测与~\gls{multinoulli}相关联的概率,定义为
\begin{align}
\text{softmax}(\Vx)_i = \frac{\exp(\Sx_i)}{\sum_{j=1}^n \exp(\Sx_j)} .
Expand Down Expand Up @@ -209,7 +209,7 @@ \section{基于梯度的优化方法}
\subsection{\glsentrytext{gradient}之上:\glsentrytext{jacobian}和\glsentrytext{hessian}矩阵}
\label{sec:beyond_the_gradient_jacobian_and_hessian_matrices}
有时我们需要计算输入和输出都为向量的函数的所有\gls{partial_derivatives}。
包含所有这样的偏导数的矩阵被称为\firstgls{jacobian}矩阵。
包含所有这样的偏导数的矩阵被称为\textbf{Jacobian}矩阵。
具体来说,如果我们有一个函数:$\Vf: \SetR^m \rightarrow \SetR^n$$\Vf$的~\gls{jacobian}~矩阵$\MJ \in \SetR^{n \times m}$定义为$J_{i,j} = \frac{\partial}{\partial \Sx_j} f(\Vx)_i$

有时,我们也对\gls{derivative}的\gls{derivative}感兴趣,即\firstgls{second_derivative}。
Expand Down Expand Up @@ -243,7 +243,7 @@ \subsection{\glsentrytext{gradient}之上:\glsentrytext{jacobian}和\glsentryt
\end{figure}

当我们的函数具有多维输入时,\gls{second_derivative}也有很多。
我们可以将这些导数合并成一个矩阵,称为\firstgls{hessian}矩阵。
我们可以将这些导数合并成一个矩阵,称为\textbf{Hessian}矩阵。
\gls{hessian}~矩阵$\MH(f)(\Vx)$定义为
\begin{align}
\MH(f)(\Vx)_{i,j} = \frac{\partial^2}{\partial \Sx_i \partial \Sx_j} f(\Vx).
Expand Down
6 changes: 3 additions & 3 deletions Chapter7/regularization.tex
Original file line number Diff line number Diff line change
Expand Up @@ -984,13 +984,13 @@ \section{\glsentrytext{bagging}和其他\glsentrytext{ensemble}方法}
最近一个突出的例子是\ENNAME{Netflix Grand Prize}\citep{Koren09}。

不是所有构建\gls{ensemble}的技术都是为了让\gls{ensemble}模型比单一模型更加\gls{regularization}。
例如,一种被称为\firstgls{boosting}的技术\citep{ConfLT:Freund:gametheorie,ConfML:Freund:AdaBoostCompar}构建比单个模型\gls{capacity}更高的\gls{ensemble}模型。
例如,一种被称为\textbf{Boosting}的技术\citep{ConfLT:Freund:gametheorie,ConfML:Freund:AdaBoostCompar}构建比单个模型\gls{capacity}更高的\gls{ensemble}模型。
通过向\gls{ensemble}逐步添加\gls{NN},\gls{boosting}已经被应用于构建神经网络的\gls{ensemble}\citep{Schwenk-nips10}。
通过逐渐增加\gls{NN}的\gls{hidden_unit},\gls{boosting}也可以将单个神经网络解释为一个\gls{ensemble}。

\section{\glsentrytext{dropout}}
\label{sec:dropout}
\firstgls{dropout}\citep{Srivastava14}提供了\gls{regularization}一大类模型的方法,计算方便但功能强大。
\textbf{Dropout}\citep{Srivastava14}提供了\gls{regularization}一大类模型的方法,计算方便但功能强大。
在第一种近似下,\gls{dropout}可以被认为是\gls{ensemble}大量深层\gls{NN}的实用\gls{bagging}方法。
\gls{bagging}涉及训练多个模型,并在每个测试样本上评估多个模型。
当每个模型都是一个很大的\gls{NN}时,这似乎是不切实际的,因为训练和评估这样的网络需要花费很多运行时间和内存。
Expand Down Expand Up @@ -1206,7 +1206,7 @@ \section{\glsentrytext{dropout}}
% -- 258 --

随机性对实现\gls{dropout}的\gls{regularization}效果不是必要的,同时也不是充分的。
为了证明这一点,\cite{WardeFarley+al-ICLR2014}使用一种被称为\firstgls{dropout_boosting}的方法设计了一个对照实验,具有与传统\gls{dropout}方法完全相同的噪声\gls{mask}, 但缺乏\gls{regularization}效果。
为了证明这一点,\cite{WardeFarley+al-ICLR2014}使用一种被称为\textbf{Dropout Boosting}的方法设计了一个对照实验,具有与传统\gls{dropout}方法完全相同的噪声\gls{mask}, 但缺乏\gls{regularization}效果。
\gls{dropout_boosting}训练整个\gls{ensemble}以最大化训练集上的似然。
从传统\gls{dropout}类似于\gls{bagging}的角度来看,这种方式类似于\gls{boosting}。
如预期一样,和单一模型训练整个网络相比,\gls{dropout_boosting}几乎没有\gls{regularization}效果。
Expand Down
2 changes: 1 addition & 1 deletion Chapter8/optimization_for_training_deep_models.tex
Original file line number Diff line number Diff line change
Expand Up @@ -1219,7 +1219,7 @@ \section{自适应\glsentrytext{learning_rate}算法}
% 299 head
\subsection{\glsentrytext{adagrad}}
\label{sec:adagrad}
\firstgls{adagrad}算法,如\algref{alg:ada_grad}所示,独立地适应所有模型参数的\gls{learning_rate},缩放每个参数反比于其所有梯度历史平方值总和的平方根\citep{Duchi+al-2011}。
\textbf{AdaGrad}算法,如\algref{alg:ada_grad}所示,独立地适应所有模型参数的\gls{learning_rate},缩放每个参数反比于其所有梯度历史平方值总和的平方根\citep{Duchi+al-2011}。
具有损失最大偏导的参数相应地有一个快速下降的\gls{learning_rate},而具有小偏导的参数在\gls{learning_rate}上有相对较小的下降。
净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。
% 299 head
Expand Down
4 changes: 2 additions & 2 deletions acknowledgments.tex
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,7 @@
\chapter*{中文版致谢}
\addcontentsline{toc}{chapter}{致谢}

首先,我们感谢原作者在本书翻译时给予我们的大力支持。
首先,我们感谢原作者在本书翻译时给予我们的大力支持。特别是,他们提供给我们原图以及参考文献源文件,使我们翻译得更加顺利。

本书涉及的内容广泛而思想深刻,如果没有众多同学和网友的帮助,我们不可能顺利完成翻译。

Expand All @@ -15,7 +15,7 @@ \chapter*{中文版致谢}
@ZhiweiYang @corenel @zhaoyu611 @SiriusXDJ @dfcv24 @EmisXXY @FlyingFire @vsooda @friskit-china @poerin @ninesunqian @JiaqiYao @Sofring @wenlei @wizyoung
@imageslr @indam @XuLYC @zhouqingping @freedomRen @runPenguin @piantou

在此期间,我们四位译者再次进行了校对并相互之间也校对了一遍
在此期间,我们四位译者再次进行了校对并且相互之间也校对了一遍
然而仅仅通过我们的校对,实在难以发现翻译中存在的问题。
因此,我们邀请一些同学和网友帮助我们校对。
经过他们的校对,本书的翻译质量提升了不少。
Expand Down
2 changes: 1 addition & 1 deletion deep_networks_modern_practices.tex
Original file line number Diff line number Diff line change
@@ -1,5 +1,5 @@
% !Mode:: "TeX:UTF-8"
\part{深层网络:现代实践}
\part{深度网络:现代实践}
\label{part:deep_networks_modern_practices}

\newpage
Expand Down
6 changes: 3 additions & 3 deletions docs/_posts/2016-12-04-Chapter4_numerical_computation.md
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ share: false
当大量级的数被近似为$\infty$或$-\infty$时发生上溢。
进一步的运算通常会导致这些无限值变为非数字。

必须对上溢和下溢进行数值稳定的一个例子是softmax函数
必须对上溢和下溢进行数值稳定的一个例子是\textbf{softmax}
softmax函数经常用于预测与~Multinoulli分布相关联的概率,定义为
\begin{align}
\text{softmax}(\Vx)_i = \frac{\exp(\Sx_i)}{\sum_{j=1}^n \exp(\Sx_j)} .
Expand Down Expand Up @@ -211,7 +211,7 @@ $ f^\prime(\Sx)=0 $的点称为临界点或驻点。
## 梯度之上:Jacobian和Hessian矩阵

有时我们需要计算输入和输出都为向量的函数的所有偏导数。
包含所有这样的偏导数的矩阵被称为Jacobian矩阵
包含所有这样的偏导数的矩阵被称为\textbf{Jacobian}矩阵
具体来说,如果我们有一个函数:$\Vf: \SetR^m \rightarrow \SetR^n$,$\Vf$的~Jacobian~矩阵$\MJ \in \SetR^{n \times m}$定义为$J_{i,j} = \frac{\partial}{\partial \Sx_j} f(\Vx)_i$。

有时,我们也对导数的导数感兴趣,即二阶导数。
Expand Down Expand Up @@ -244,7 +244,7 @@ $ f^\prime(\Sx)=0 $的点称为临界点或驻点。
\end{figure}

当我们的函数具有多维输入时,二阶导数也有很多。
我们可以将这些导数合并成一个矩阵,称为Hessian矩阵
我们可以将这些导数合并成一个矩阵,称为\textbf{Hessian}矩阵
Hessian~矩阵$\MH(f)(\Vx)$定义为
\begin{align}
\MH(f)(\Vx)_{i,j} = \frac{\partial^2}{\partial \Sx_i \partial \Sx_j} f(\Vx).
Expand Down
6 changes: 3 additions & 3 deletions docs/_posts/2016-12-07-Chapter7_regularization.md
Original file line number Diff line number Diff line change
Expand Up @@ -982,14 +982,14 @@ Bagging训练程序通过有放回采样构建这些数据集。
最近一个突出的例子是Netflix Grand Prize{cite?}。

不是所有构建集成的技术都是为了让集成模型比单一模型更加正则化。
例如,一种被称为Boosting的技术{cite?}构建比单个模型容量更高的集成模型。
例如,一种被称为\textbf{Boosting}的技术{cite?}构建比单个模型容量更高的集成模型。
通过向集成逐步添加神经网络,Boosting已经被应用于构建神经网络的集成{cite?}。
通过逐渐增加神经网络的隐藏单元,Boosting也可以将单个神经网络解释为一个集成。


# Dropout

Dropout{cite?}提供了正则化一大类模型的方法,计算方便但功能强大。
\textbf{Dropout}{cite?}提供了正则化一大类模型的方法,计算方便但功能强大。
在第一种近似下,Dropout可以被认为是集成大量深层神经网络的实用Bagging方法。
Bagging涉及训练多个模型,并在每个测试样本上评估多个模型。
当每个模型都是一个很大的神经网络时,这似乎是不切实际的,因为训练和评估这样的网络需要花费很多运行时间和内存。
Expand Down Expand Up @@ -1202,7 +1202,7 @@ Dropout的另一个显著优点是不怎么限制适用的模型或训练过程
<!-- % -- 258 -- -->

随机性对实现Dropout的正则化效果不是必要的,同时也不是充分的。
为了证明这一点,{WardeFarley+al-ICLR2014}使用一种被称为Dropout Boosting的方法设计了一个对照实验,具有与传统Dropout方法完全相同的噪声掩码, 但缺乏正则化效果。
为了证明这一点,{WardeFarley+al-ICLR2014}使用一种被称为\textbf{Dropout Boosting}的方法设计了一个对照实验,具有与传统Dropout方法完全相同的噪声掩码, 但缺乏正则化效果。
Dropout Boosting训练整个集成以最大化训练集上的似然。
从传统Dropout类似于Bagging的角度来看,这种方式类似于Boosting。
如预期一样,和单一模型训练整个网络相比,Dropout Boosting几乎没有正则化效果。
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -1220,7 +1220,7 @@ Nesterov 动量中,梯度计算在施加当前速度之后。

## AdaGrad

AdaGrad算法,如\alg?所示,独立地适应所有模型参数的学习率,缩放每个参数反比于其所有梯度历史平方值总和的平方根{cite?}。
\textbf{AdaGrad}算法,如\alg?所示,独立地适应所有模型参数的学习率,缩放每个参数反比于其所有梯度历史平方值总和的平方根{cite?}。
具有损失最大偏导的参数相应地有一个快速下降的学习率,而具有小偏导的参数在学习率上有相对较小的下降。
净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。
<!-- % 299 head -->
Expand Down
2 changes: 1 addition & 1 deletion docs/_posts/2016-12-17-Chapter17_monte_carlo_methods.md
Original file line number Diff line number Diff line change
Expand Up @@ -458,7 +458,7 @@ Gibbs采样混合得很慢,因为每次更新仅仅一个变量很难跨越不
由于\,Gibbs采样作用于一个深度图模型,相似度更多地是基于语义而非原始视觉特征。
但是对于吉布斯链来说从分布的一个峰值转移到另一个仍然是很困难的,比如说改变数字。
\emph{(右)}从生成式对抗网络中抽出的连续原始样本。
因为原始采样生成的样本之间互相独立,所以不存在混合问题。
因为原始采样生成的样本之间互相独立,所以不存在混合问题。}
\end{figure}
<!-- % 593 end -->

Expand Down

0 comments on commit ba908e3

Please sign in to comment.