Skip to content

Commit

Permalink
change some gls; Chapter 10 ok
Browse files Browse the repository at this point in the history
Former-commit-id: db1d8e7e74741a4bb06ea06b1882a7a26cf2b570
  • Loading branch information
SwordYork committed Jan 6, 2017
1 parent c9d260a commit a0bd68e
Show file tree
Hide file tree
Showing 17 changed files with 420 additions and 414 deletions.
291 changes: 147 additions & 144 deletions Chapter10/sequence_modeling_rnn.tex

Large diffs are not rendered by default.

2 changes: 1 addition & 1 deletion Chapter11/practical_methodology.tex
Original file line number Diff line number Diff line change
Expand Up @@ -534,7 +534,7 @@ \section{调试技巧}

% -- 426 --

通常,我们会测试矢量值函数$g:\SetR^m \to \SetR^n$的梯度或雅可比矩阵
通常,我们会测试向量值函数$g:\SetR^m \to \SetR^n$的梯度或\gls{jacobian}矩阵
令人遗憾的是,\gls{finite_difference}只允许我们每次计算一个导数。
我们既可以运行\gls{finite_difference}$mn$次评估$g$的所有偏导数,又可以将该测试应用于一个输入输出都是$g$的随机投影的新函数。
例如,我们可以用导数实现去测试函数$f(x) = \Vu^T g(\Vv x)$,其中$\Vu$$\Vv$是随机向量。
Expand Down
4 changes: 2 additions & 2 deletions Chapter15/representation_learning.tex
Original file line number Diff line number Diff line change
Expand Up @@ -204,7 +204,7 @@ \subsection{何时以及为何\glsentrytext{unsupervised_pretraining}有效?}
\cite{Erhan+al-2010-small}进行了许多实验来解释\gls{unsupervised_pretraining}的几个成功点。
对训练误差和测试误差的改进都可以解释为,\gls{unsupervised_pretraining}将参数引入到了可能不会探索的区域。
\gls{NN}训练是非确定性的,并且每次运行都会收敛到不同的函数。
训练可以停止在梯度变小的点;也可以\gls{early_stopping}结束训练,以防过拟合;还可以停止在梯度很大,但由于诸如随机性或海森矩阵\gls{poor_conditioning}等问题难以找到合适下降方向的点。
训练可以停止在梯度变小的点;也可以\gls{early_stopping}结束训练,以防过拟合;还可以停止在梯度很大,但由于诸如随机性或\gls{hessian}矩阵\gls{poor_conditioning}等问题难以找到合适下降方向的点。
经过\gls{unsupervised_pretraining}的神经网络会一致地停止在一片相同的区域,但未经过\gls{pretraining}的\gls{NN}会一致地停在另一个区域。
参看\figref{fig:chap15_isomap}了解这种现象。
经过\gls{pretraining}的网络到达的区域是较小的,这表明\gls{pretraining}减少了估计过程的方差,这进而又可以降低严重过拟合的风险。
Expand Down Expand Up @@ -248,7 +248,7 @@ \subsection{何时以及为何\glsentrytext{unsupervised_pretraining}有效?}

% -- 525 --

如今,大部分算法已经不使用\gls{unsupervised_pretraining}了,除了在自然语言处理领域,其中单词作为\gls{one_hot}矢量的自然表示不能传达相似性信息,并且有非常多的未标记集可用。
如今,大部分算法已经不使用\gls{unsupervised_pretraining}了,除了在自然语言处理领域,其中单词作为\gls{one_hot}向量的自然表示不能传达相似性信息,并且有非常多的未标记集可用。
在这种情况下,\gls{pretraining}的优点是可以对一个巨大的未标记集合(例如用包含数十亿单词的语料库)进行\gls{pretraining},学习良好的表示(通常是单词,但也可以是句子),然后使用该表示或\gls{fine_tune}表示,用于训练集样本很少的监督任务。
这种方法由\cite{CollobertR2008-small},\cite{Turian+Ratinov+Bengio-2010-small}和\cite{collobert2011natural}开创,至今仍在使用。

Expand Down
4 changes: 2 additions & 2 deletions Chapter8/optimization_for_training_deep_models.tex
Original file line number Diff line number Diff line change
Expand Up @@ -377,7 +377,7 @@ \subsection{高原,\glsentrytext{saddle_points}和其他平坦区域}
多类随机函数表现出以下性质:低维空间中,局部极小值很普遍。
在更高维空间中,局部极小值很少,而\gls{saddle_points}则很常见。
对于这类函数$f:\SetR^n \to \SetR$而言,\gls{saddle_points}和局部极小值的数目比率期望随$n$指数级增长。
直觉上理解这种现象,我们可以观察到海森矩阵在局部极小点处只有正特征值
直觉上理解这种现象,我们可以观察到\gls{hessian}矩阵在局部极小点处只有正特征值
而在\gls{saddle_points}处,\gls{hessian}矩阵则同时具有正负特征值。
试想一下,每个特征值的正负号由抛硬币决定。
在一维情况下,很容易抛硬币得到正面朝上一次而获取局部极小值。
Expand Down Expand Up @@ -1644,7 +1644,7 @@ \subsection{设计有助于优化的模型}
具体来说,现代神经网络的\emph{设计选择}体现在层之间的线性变换,几乎处处可导的激励函数,和大部分定义域都有明显的梯度。
特别地,创新的模型,如\glssymbol{LSTM},\gls{ReLU}和\gls{maxout}单元都比先前的模型(如基于\gls{sigmoid}单元的\gls{deep_network})使用更多的线性函数。
这些模型都具有简化优化的性质。
如果线性变换的雅可比具有相对合理的奇异值,那么梯度能够流经很多层。
如果线性变换的\gls{jacobian}具有相对合理的奇异值,那么梯度能够流经很多层。
此外,线性函数在一个方向上一致增加,所以即使模型的输出远离正确值,也可以简单清晰地计算梯度,使其输出方向朝降低损失函数的方向移动。
换言之,现代神经网络的设计方案旨在使其\emph{局部}梯度信息合理地对应着移向一个遥远的解。

Expand Down
2 changes: 1 addition & 1 deletion Chapter9/convolutional_networks.tex
Original file line number Diff line number Diff line change
Expand Up @@ -250,7 +250,7 @@ \section{\glsentrytext{pooling}}
在第一级中,卷积层并行地进行多个卷积运算来产生一组线性激活函数。
在第二级中,非线性的激活函数如\gls{ReLU}函数等作用在第一级中的每一个线性输出上。
这一级有时也被称为\firstgls{detector_stage}。
在第三级中,我们使用\firstgls{pooling_funciton}函数来更进一步地调整卷积层的输出
在第三级中,我们使用\firstgls{pooling_funciton}来更进一步地调整卷积层的输出
% fig 9.7
\begin{figure}[!htb]
\ifOpenSource
Expand Down
22 changes: 11 additions & 11 deletions docs/_posts/2016-12-01-Chapter1_introduction.md
Original file line number Diff line number Diff line change
Expand Up @@ -25,11 +25,11 @@ share: false
许多AI的早期成功发生在相对干净且形式的环境中, 计算机不需要具备很多关于世界的知识。
例如,IBM的深蓝(Deep Blue)国际象棋系统在1997年击败了世界冠军Garry Kasparov{cite?}。
当然国际象棋是一个非常简单的领域,仅含有64个位置并只能以严格限制的方式移动32个棋子。
设计一种成功的国际象棋策略是巨大的成就,但挑战并不是向计算机描述棋子和允许的移动的困难性
设计一种成功的国际象棋策略是巨大的成就,但向计算机描述棋子及其允许的移动并不是挑战的困难所在
国际象棋完全可以由一个非常简短的、完全形式化的规则列表描述,并可以轻松由程序员提前提供。

讽刺的是,抽象和形式的任务对人类而言是最困难的脑力任务之一,对计算机而言却属于最容易的。
计算机早已能够打败即便是最好的人类棋手,但直到最近才在识别对象或语音的任务中到达匹配人类平均的能力
即使是最好的人类棋手,计算机也早已能够将其打败,但直到最近计算机才在对象识别或语音任务中达到人类平均水平
一个人的日常生活需要关于世界的巨量知识。
很多这方面的知识是主观的、直观的,因此很难通过形式的方式表达清楚。
为了表现出智能,计算机需要获取同样的知识。
Expand Down Expand Up @@ -58,7 +58,7 @@ Cyc包括一个推断引擎和一个使用CycL语言描述的声明数据库。

这些简单的机器学习算法的性能在很大程度上依赖于给定数据的表示。
例如,当逻辑回归被用于推荐剖腹产时,AI系统不直接检查患者。
相反,需要医生告诉系统几条相关的信息,诸如子宫疤痕是否存在。
相反,医生需要告诉系统几条相关的信息,诸如子宫疤痕是否存在。
表示患者的每条信息被称为一个特征。
逻辑回归学习病人的这些特征如何与各种结果相关联。
然而,它丝毫不能影响该特征定义的方式。
Expand Down Expand Up @@ -98,7 +98,7 @@ MRI扫描的单一像素与分娩过程中的并发症只有微不足道的相
学习到的表示往往比手动设计的表示表现得更好。
并且它们只需最少的人工干预,就能让AI系统迅速适应新的任务。
表示学习算法只需几分钟就可以为简单的任务发现一个很好的特征集,对于复杂任务则需要几小时到几个月。
手动为一个复杂的任务设计特征需要耗费大量的人工时间和精力;甚至需要花费整个社区研究人员几十年的时间
手动为一个复杂的任务设计特征需要耗费大量的人工时间和精力;甚至需要花费整个社群研究人员几十年的时间

表示学习算法的典型例子是自动编码器。
自动编码器组合了将输入转换到不同表示编码器函数和将新的表示转回原来形式的解码器函数。
Expand Down Expand Up @@ -267,7 +267,7 @@ MRI扫描的单一像素与分娩过程中的并发症只有微不足道的相
通过历史背景了解深度学习是最简单的方式。
我们仅指出深度学习的几个关键趋势,而不是提供详细的历史:

+ 深度学习有着悠久而丰富的历史,但随着很多反映不同哲学观点名称的尘封而渐渐消逝
+ 深度学习有着悠久而丰富的历史,但随着许多不同哲学观点的渐渐消逝,与之对应的名称也渐渐尘封
+ 随着可用的训练数据量不断增加,深度学习变得更加有用。
+ 随着时间的推移,针对深度学习的计算机软硬件基础设施都有所改善,深度学习模型的规模也随之增长。
+ 随着时间的推移,深度学习已经解决日益复杂的应用,并且精度不断提高。
Expand All @@ -279,7 +279,7 @@ MRI扫描的单一像素与分娩过程中的并发症只有微不足道的相

我们期待这本书的许多读者都听说过深度学习这一激动人心的新技术,并为一本书提及关于一个新兴领域的"历史"而感到惊讶。
事实上,深度学习的历史可以追溯到20世纪40年代。
深度学习只是\emph{看上去像}一个新的领域,因为在目前流行的前几年它是相对冷门的,同时也因为它被赋予了许多不同的已经消逝的名称,最近才成为所谓的"深度学习"。
深度学习\emph{看似}是一个全新的领域,只不过因为在目前流行的前几年它是相对冷门的,同时也因为它被赋予了许多不同的名称(其中大部分已经不再使用),最近才成为所谓的"深度学习"。
这个领域已经更换了很多名称,反映了不同的研究人员和不同观点的影响。

讲述整个综合性的深度学习历史超出了本书的范围。
Expand Down Expand Up @@ -308,7 +308,7 @@ MRI扫描的单一像素与分娩过程中的并发症只有微不足道的相
此时深度学习模型对应的观点是他们设计的系统是受生物大脑(无论人类大脑或其他动物的大脑)所启发。
尽管有些机器学习的神经网络有时被用来理解大脑功能{cite?},它们一般都没有被设计成生物功能的真实模型。
深度学习的神经观点受两个主要思想启发的。
一个想法是,大脑这个例子证明智能行为的可能性,因此建立智能概念上的直接途径是逆向大脑背后的计算原理,并复制其功能。
一个想法是大脑这个例子证明智能行为的可能性,因此从概念上讲,建立智能的直接途径是逆向大脑背后的计算原理,并复制其功能。
另一种看法是,理解大脑和人类智力背后的原则也非常有趣,因此机器学习模型除了解决工程应用的能力, 如果能阐明这些基本的科学问题也将会很有用。

<!-- % -- 13 -- -->
Expand Down Expand Up @@ -339,7 +339,7 @@ McCulloch-Pitts神经元{cite?}是脑功能的早期模型。
线性模型有很多局限性。
最著名的是,它们无法学习XOR函数,即$f([0,1], \Vw) = 1, f([1,0], \Vw)=1$,但$f([1,1], \Vw)=0, f([0,0],\Vw)= 0$。
在线性模型中观察到这些缺陷的批评者开始反对受生物学启发的学习{cite?}。
这是神经网络第一次热度较多的下降
这是神经网络热潮的第一次大幅下降

现在,神经科学被视为深度学习研究的一个重要灵感来源,但它已不再是该领域的主要导向。

Expand All @@ -352,8 +352,8 @@ McCulloch-Pitts神经元{cite?}是脑功能的早期模型。
神经科学已经给了我们依靠单一深度学习算法解决许多不同任务的理由。
神经学家们发现,如果将雪貂的大脑重新连接,使视觉信号传送到听觉区域,它们可以学会用大脑的听觉处理区域"看"{cite?}。
这表明,多数哺乳动物大脑的可能使用单一的算法解决大部分大脑可以解决的不同任务。
这个假设之前,机器学习研究更加分散,研究人员在不同的社区研究自然语言处理、计算机视觉、运动规划和语音识别。
如今,这些应用的社区仍然是独立的,但是深度学习研究小组同时研究许多或甚至所有这些应用领域是很常见的。
这个假设之前,机器学习研究更加分散,研究人员在不同的社群研究自然语言处理、计算机视觉、运动规划和语音识别。
如今,这些应用的社群仍然是独立的,但是深度学习研究小组同时研究许多或甚至所有这些应用领域是很常见的。

我们能够从神经科学得到一些粗略的指南。
仅通过计算单元之间的相互作用而变得智能的基本思想是受大脑启发的。
Expand Down Expand Up @@ -413,7 +413,7 @@ McCulloch-Pitts神经元{cite?}是脑功能的早期模型。
当AI研究不能实现这些不合理的期望时,投资者感到失望。
同时,机器学习的其他领域取得进步。
核学习机{cite?}和图模型{cite?}都在很多重要任务上实现了很好的效果。
这两个因素导致了神经网络热度的第二次下降,一直持续到2007年。
这两个因素导致了神经网络热潮的第二次下降,一直持续到2007年。

在此期间,神经网络持续在某些任务上获得令人印象深刻的表现{cite?}。
加拿大高级研究所(CIFAR)通过其神经计算和自适应感知(NCAP)研究计划帮助维持神经网络研究。
Expand Down
Loading

0 comments on commit a0bd68e

Please sign in to comment.