Merge branch 'master' of https://github.com/exacity/deeplearningbook-…

…chinese Former-commit-id: 95f8eb91e49015500f1c787d7b9610de97746295
wyfSunflower · Jan 5, 2017 · 6e78957 · 6e78957
2 parents 2befafd + 33a455e
commit 6e78957
Show file tree

Hide file tree

Showing 95 changed files with 31,142 additions and 172 deletions.
diff --git a/.gitignore b/.gitignore
@@ -26,6 +26,9 @@ agreement.jpg
 dlbook_cn_public.tex
 dlbook_cn_public.bib
 font
+docs/_site/
+docs/images/
 
 main.bib
 main.tex
+
diff --git a/Chapter1/introduction.tex b/Chapter1/introduction.tex
@@ -24,11 +24,11 @@ \chapter{前言}
 许多\glssymbol{AI}的早期成功发生在相对干净且形式的环境中， 计算机不需要具备很多关于世界的知识。
 例如，IBM的深蓝（Deep Blue）国际象棋系统在1997年击败了世界冠军\ENNAME{Garry Kasparov}\citep{Hsu2002}。
 当然国际象棋是一个非常简单的领域，仅含有64个位置并只能以严格限制的方式移动32个棋子。
-设计一种成功的国际象棋策略是巨大的成就，但挑战并不是向计算机描述棋子和允许的移动的困难性。
+设计一种成功的国际象棋策略是巨大的成就，但向计算机描述棋子及其允许的移动并不是挑战的困难所在。
 国际象棋完全可以由一个非常简短的、完全形式化的规则列表描述，并可以轻松由程序员提前提供。
 
 讽刺的是，抽象和形式的任务对人类而言是最困难的脑力任务之一，对计算机而言却属于最容易的。
-计算机早已能够打败即便是最好的人类棋手，但直到最近才在识别对象或语音的任务中到达匹配人类平均的能力。
+即使是最好的人类棋手，计算机也早已能够将其打败，但直到最近计算机才在对象识别或语音任务中达到人类平均水平。
 一个人的日常生活需要关于世界的巨量知识。
 很多这方面的知识是主观的、直观的，因此很难通过形式的方式表达清楚。
 为了表现出智能，计算机需要获取同样的知识。
@@ -57,7 +57,7 @@ \chapter{前言}
 
 这些简单的\gls{ML}算法的性能在很大程度上依赖于给定数据的\firstgls{representation}。
 例如，当\gls{logistic_regression}被用于推荐剖腹产时，\glssymbol{AI}系统不直接检查患者。
-相反，需要医生告诉系统几条相关的信息，诸如子宫疤痕是否存在。
+相反，医生需要告诉系统几条相关的信息，诸如子宫疤痕是否存在。
 表示患者的每条信息被称为一个特征。
 \gls{logistic_regression}学习病人的这些特征如何与各种结果相关联。
 然而，它丝毫不能影响该特征定义的方式。
@@ -98,7 +98,7 @@ \chapter{前言}
 学习到的\gls{representation}往往比手动设计的\gls{representation}表现得更好。
 并且它们只需最少的人工干预，就能让\glssymbol{AI}系统迅速适应新的任务。
 \gls{representation_learning}算法只需几分钟就可以为简单的任务发现一个很好的特征集，对于复杂任务则需要几小时到几个月。
-手动为一个复杂的任务设计特征需要耗费大量的人工时间和精力；甚至需要花费整个社区研究人员几十年的时间。
+手动为一个复杂的任务设计特征需要耗费大量的人工时间和精力；甚至需要花费整个社群研究人员几十年的时间。
 
 \gls{representation_learning}算法的典型例子是\firstgls{AE}。
 \gls{AE}组合了将输入转换到不同\gls{representation}\firstgls{encoder}函数和将新的\gls{representation}转回原来形式的\firstgls{decoder}函数。 
@@ -270,7 +270,7 @@ \section{深度学习的历史趋势}
 通过历史背景了解\gls{DL}是最简单的方式。
 我们仅指出\gls{DL}的几个关键趋势，而不是提供详细的历史：
 \begin{itemize}
- \item \gls{DL}有着悠久而丰富的历史，但随着很多反映不同哲学观点名称的尘封而渐渐消逝。
+ \item \gls{DL}有着悠久而丰富的历史，但随着许多不同哲学观点的渐渐消逝，与之对应的名称也渐渐尘封。
  \item 随着可用的训练数据量不断增加，\gls{DL}变得更加有用。
  \item 随着时间的推移，针对\gls{DL}的计算机软硬件基础设施都有所改善，\gls{DL}模型的规模也随之增长。
  \item 随着时间的推移，\gls{DL}已经解决日益复杂的应用，并且精度不断提高。
@@ -281,7 +281,7 @@ \subsection{神经网络的众多名称和命运变迁}
 
 我们期待这本书的许多读者都听说过\gls{DL}这一激动人心的新技术，并为一本书提及关于一个新兴领域的``历史''而感到惊讶。
 事实上，\gls{DL}的历史可以追溯到20世纪40年代。
-\gls{DL}只是\emph{看上去像}一个新的领域，因为在目前流行的前几年它是相对冷门的，同时也因为它被赋予了许多不同的已经消逝的名称，最近才成为所谓的``深度学习''。
+\gls{DL}\emph{看似}是一个全新的领域，只不过因为在目前流行的前几年它是相对冷门的，同时也因为它被赋予了许多不同的名称（其中大部分已经不再使用），最近才成为所谓的``\gls{DL}''。
 这个领域已经更换了很多名称，反映了不同的研究人员和不同观点的影响。
 
 讲述整个综合性的\gls{DL}历史超出了本书的范围。
@@ -311,7 +311,7 @@ \subsection{神经网络的众多名称和命运变迁}
 此时\gls{DL}模型对应的观点是他们设计的系统是受生物大脑（无论人类大脑或其他动物的大脑）所启发。
 尽管有些\gls{ML}的\gls{NN}有时被用来理解大脑功能\citep{hinton1991lesioning}，它们一般都没有被设计成生物功能的真实模型。
 \gls{DL}的神经观点受两个主要思想启发的。
-一个想法是，大脑这个例子证明智能行为的可能性，因此建立智能概念上的直接途径是逆向大脑背后的计算原理，并复制其功能。
+一个想法是大脑这个例子证明智能行为的可能性，因此从概念上讲，建立智能的直接途径是逆向大脑背后的计算原理，并复制其功能。
 另一种看法是，理解大脑和人类智力背后的原则也非常有趣，因此\gls{ML}模型除了解决工程应用的能力， 如果能阐明这些基本的科学问题也将会很有用。 
 
 % -- 13 --
@@ -342,7 +342,7 @@ \subsection{神经网络的众多名称和命运变迁}
 \gls{linear_model}有很多局限性。
 最著名的是，它们无法学习XOR函数，即$f([0,1], \Vw) = 1, f([1,0], \Vw)=1$，但$f([1,1], \Vw)=0, f([0,0],\Vw)= 0$。
 在\gls{linear_model}中观察到这些缺陷的批评者开始反对受生物学启发的学习\citep{Minsky69}。
-这是\gls{NN}第一次热度较多的下降。
+这是\gls{NN}热潮的第一次大幅下降。
 
 现在，神经科学被视为\gls{DL}研究的一个重要灵感来源，但它已不再是该领域的主要导向。
 
@@ -355,8 +355,8 @@ \subsection{神经网络的众多名称和命运变迁}
 神经科学已经给了我们依靠单一\gls{DL}算法解决许多不同任务的理由。
 神经学家们发现，如果将雪貂的大脑重新连接，使视觉信号传送到听觉区域，它们可以学会用大脑的听觉处理区域``看''\citep{von2000visual}。
 这表明，多数哺乳动物大脑的可能使用单一的算法解决大部分大脑可以解决的不同任务。
-这个假设之前，\gls{ML}研究更加分散，研究人员在不同的社区研究自然语言处理、计算机视觉、运动规划和语音识别。
-如今，这些应用的社区仍然是独立的，但是\gls{DL}研究小组同时研究许多或甚至所有这些应用领域是很常见的。
+这个假设之前，\gls{ML}研究更加分散，研究人员在不同的社群研究自然语言处理、计算机视觉、运动规划和语音识别。
+如今，这些应用的社群仍然是独立的，但是\gls{DL}研究小组同时研究许多或甚至所有这些应用领域是很常见的。
 
 我们能够从神经科学得到一些粗略的指南。
 仅通过计算单元之间的相互作用而变得智能的基本思想是受大脑启发的。
@@ -416,7 +416,7 @@ \subsection{神经网络的众多名称和命运变迁}
 当\glssymbol{AI}研究不能实现这些不合理的期望时，投资者感到失望。
 同时，\gls{ML}的其他领域取得进步。
 核学习机\citep{Boser92,Cortes95,SchBurSmo99}和图模型\citep{Jordan98}都在很多重要任务上实现了很好的效果。
-这两个因素导致了\gls{NN}热度的第二次下降，一直持续到2007年。
+这两个因素导致了\gls{NN}热潮的第二次下降，一直持续到2007年。
 
 在此期间，\gls{NN}持续在某些任务上获得令人印象深刻的表现\citep{LeCun98-small,Bengio-nnlm2001}。
 加拿大高级研究所（CIFAR）通过其神经计算和自适应感知（NCAP）研究计划帮助维持\gls{NN}研究。

diff --git a/Chapter12/applications.tex b/Chapter12/applications.tex
@@ -1,7 +1,5 @@
 % !Mode:: "TeX:UTF-8"
-% Translator:
-% Tianfan Fu: 12.1~12. 3
-% Shenjian Zhao: 12.4~12.5
+% Translator: Tianfan Fu: 12.1~12.3 Shenjian Zhao: 12.4~12.5
 \chapter{应用}
 \label{chap:applications}
 

diff --git a/Chapter15/representation_learning.tex b/Chapter15/representation_learning.tex
@@ -59,7 +59,7 @@ \chapter{\glsentrytext{representation_learning}}
 
 % -- 518 --
 
-\section{贪心地逐层\glsentrytext{unsupervised_pretraining}}
+\section{贪心地逐层\glsentrytext{unsupervised_pretraining} }
 \label{sec:greedy_layer_wise_unsupervised_pretraining}
 \gls{unsupervised_learning}在\gls{DNN}的复兴历史上起到了关键作用，使研究者首次可以训练不含诸如\gls{convolution}或者\gls{recurrence}这类特殊结构的深度监督网络。
 我们将这一过程称为\firstgls{unsupervised_pretraining}，或者更精确地，\firstgls{greedy_layer_wise_unsupervised_pretraining}。
@@ -71,7 +71,7 @@ \section{贪心地逐层\glsentrytext{unsupervised_pretraining}}
 如\algref{alg:pretraining}所示正式的表述。
 
 \begin{algorithm}
-\caption{{\em \gls{greedy_layer_wise_unsupervised_pretraining}的协定}\\
+\caption{ {\em \gls{greedy_layer_wise_unsupervised_pretraining}的协定}\\
 给定如下：无监督特征学习算法$\CalL$，$\CalL$使用训练集样本并返回\gls{encoder}或特征函数$f$。
 原始输入数据是$\MX$，每行一个样本，并且$f^{(1)}(\MX)$是第一阶段\gls{encoder}关于$\MX$的输出。
 在执行\gls{fine_tune}的情况下，我们使用学习者$\CalT$，并使用初始函数$f$，输入样本$\MX$（以及在监督\gls{fine_tune}情况下关联的目标$\MY$），并返回细调好函数。 阶段数为$m$。

diff --git a/Chapter16/structured_probabilistic_modelling.tex b/Chapter16/structured_probabilistic_modelling.tex
@@ -916,7 +916,7 @@ \section{从\glsentrytext{graphical_models}中采样}
 我们可以通过将\gls{undirected_model}转换为\gls{directed_model}来实现从\gls{undirected_model}中抽样，但是这通常需要解决棘手的推断问题（以确定新有向图的根节点上的边缘分布），或者需要引入许多边，从而会使得到的\gls{directed_model}变得难以处理。
 从\gls{undirected_model}抽样，而不首先将其转换为\gls{directed_model}的做法似乎需要解决循环依赖的问题。 
 每个变量与每个其他变量相互作用，因此对于抽样过程没有明确的起点。
-不幸的是，从\gls{undirected_model}模型中抽取样本是一个昂贵的过程。
+不幸的是，从\gls{undirected_model}中抽取样本是一个昂贵的过程。
 理论上最简单的方法是\firstgls{gibbs_sampling}。
 假设我们在一个$n$维向量的随机变量$\RVx$上有一个\gls{graphical_models}。 
 我们迭代地访问每个变量$x_i$，在给定其它变量的条件下从$p(\RSx_i \mid \RSx_{-i})$中抽样。