From 4b1b391767580fc3abbe9d6b2db76ffe982604ad Mon Sep 17 00:00:00 2001 From: KevinLee1992 Date: Thu, 16 Mar 2017 00:08:34 +0800 Subject: [PATCH] small update --- .../probability_and_information_theory.tex | 48 +++++++++---------- Chapter9/convolutional_networks.tex | 8 ++-- README.md | 2 +- math_symbol.tex | 1 + 4 files changed, 30 insertions(+), 29 deletions(-) diff --git a/Chapter3/probability_and_information_theory.tex b/Chapter3/probability_and_information_theory.tex index bd71f1e..0e88781 100644 --- a/Chapter3/probability_and_information_theory.tex +++ b/Chapter3/probability_and_information_theory.tex @@ -5,21 +5,21 @@ \chapter{概率与信息论} 本章我们讨论概率论和信息论。 -概率论是用于表示不确定性\firstgls{statement}的数学框架。 +概率论是用于表示不确定性\gls{statement}的数学框架。 %(statement要不要换一下说法) 它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性\gls{statement}的公理。 在\gls{AI}领域,概率论主要有两种用途。 首先,概率法则告诉我们~\glssymbol{AI}~系统如何推理,据此我们设计一些算法来计算或者估算由概率论导出的表达式。 其次,我们可以用概率和统计从理论上分析我们提出的~\glssymbol{AI}~系统的行为。 -概率论是众多科学和工程学科的基本工具。 -我们提供这一章是为了保证那些背景是软件工程而较少接触概率论的读者也可以理解本书的内容。 +概率论是众多科学学科和工程学科的基本工具。 +我们提供这一章,是为了确保那些背景偏软件工程而较少接触概率论的读者也可以理解本书的内容。 -概率论使我们能够作出不确定的\gls{statement}以及在不确定性存在的情况下进行推理,而信息论使我们能够量化\gls{PD}中的不确定性总量。 +概率论使我们能够提出不确定的\gls{statement}以及在不确定性存在的情况下进行推理,而信息论使我们能够量化\gls{PD}中的不确定性总量。 如果你已经对概率论和信息论很熟悉了,那么除了\secref{sec:structured_probabilistic_models_chap3}以外的整章内容,你都可以跳过。 而在\secref{sec:structured_probabilistic_models_chap3}中,我们会介绍用来描述机器学习中\gls{structured_probabilistic_models}的图。 -即使你对这些主题完全没有任何的先验知识,本章对于完成深度学习的研究项目来说已经足够,但我们还是建议你能够参考一些额外的资料,例如~\cite{Jaynes03}。 +即使你对这些主题没有任何的先验知识,本章对于完成深度学习的研究项目来说也已经足够,尽管如此我们还是建议你能够参考一些额外的资料,例如~\cite{Jaynes03}。 % -- 51 -- @@ -28,16 +28,16 @@ \section{为什么要使用概率?} 计算机科学的许多分支处理的实体大部分都是完全确定且必然的。 程序员通常可以安全地假定CPU将完美地执行每条机器指令。 -硬件错误确实会发生,但它们足够罕见,以致于大部分软件应用在设计时并不需要考虑这些因素的影响。 +虽然硬件错误确实会发生,但它们足够罕见,以致于大部分软件应用在设计时并不需要考虑这些因素的影响。 鉴于许多计算机科学家和软件工程师在一个相对干净和确定的环境中工作,机器学习对于概率论的大量使用是很令人吃惊的。 这是因为机器学习通常必须处理不确定量,有时也可能需要处理随机(非确定性的)量。 %(这里uncertain和stochastic有什么区别?) 不确定性和随机性可能来自多个方面。 至少从20世纪80年代开始,研究人员就对使用概率论来量化不确定性提出了令人信服的论据。 -这里提出的许多论点都是根据~\cite{Pearl88}总结或启发得到的。 +这里给出的许多论据都是根据~\cite{Pearl88}的工作总结或启发得到的。 -几乎所有的活动都需要能够在不确定性存在时进行推理。 +几乎所有的活动都需要一些在不确定性存在的情况下进行推理的能力。 事实上,除了那些被定义为真的数学\gls{statement},我们很难认定某个命题是千真万确的或者确保某件事一定会发生。 不确定性有三种可能的来源: @@ -45,38 +45,38 @@ \section{为什么要使用概率?} \begin{enumerate} \item 被建模系统内在的随机性。 例如,大多数\gls{quantum_mechanics}的解释,都将\gls{subatomic}粒子的动力学描述为概率的。 -我们还可以创建一些我们假设具有随机动态的理论情境,例如一个假想的纸牌游戏,在这个游戏中我们假设纸牌真正混洗成了随机顺序。 +我们还可以创建一些我们假设具有随机动态的理论情境,例如一个假想的纸牌游戏,在这个游戏中我们假设纸牌被真正混洗成了随机顺序。 \item 不完全观测。 即使是确定的系统,当我们不能观测到所有驱动系统行为的变量时,该系统也会呈现随机性。 -例如,在Monty Hall问题中,一个游戏节目的参赛者被要求在三个门之间选择并且赢得放置在选中门后的奖金。 -两扇门通向山羊,第三扇门通向一辆汽车。 -选手选择所导致的结果是确定的,但是站在选手的角度,结果是不确定的。 +例如,在Monty Hall问题中,一个游戏节目的参与者被要求在三个门之间选择,并且会赢得放置在选中门后的奖品。 +其中两扇门通向山羊,第三扇门通向一辆汽车。 +选手的每个选择所导致的结果是确定的,但是站在选手的角度,结果是不确定的。 \item 不完全建模。 当我们使用一些必须舍弃某些观测信息的模型时,舍弃的信息会导致模型的预测出现不确定性。 例如,假设我们制作了一个机器人,它可以准确地观察周围每一个对象的位置。 -如果预测这些对象将来的位置时机器人采用的是离散化的空间,那么离散化使得机器人立即变得不能确定对象的精确位置:每个对象都可能处于它被观察到占据的离散单元的任何位置。 +在对这些对象将来的位置进行预测时,如果机器人采用的是离散化的空间,那么离散化的方法将使得机器人无法确定对象们的精确位置:因为每个对象都可能处于它被观测到的离散单元的任何一个角落。 \end{enumerate} % -- 52 -- 在很多情况下,使用一些简单而不确定的规则要比复杂而确定的规则更为实用,即使真正的规则是确定的并且我们建模的系统可以足够精确地容纳复杂的规则。 -例如,简单的原则``多数鸟儿都会飞''的描述很简单很并且使用广泛,而正式的规则——``除了那些非常小的还没学会飞翔的幼鸟,因为生病或是受伤而失去了飞翔能力的鸟,不会飞的鸟类包括食火鸟(cassowary)、鸵鸟(ostrich)、几维(kiwi,一种新西兰产的无翼鸟)……等等,鸟会飞'',很难应用、维护和沟通,即使经过所有这些的努力,这些规则还是很脆弱的,并且容易失效。 +例如,``多数鸟儿都会飞''这个简单的规则描述起来很简单很并且使用广泛,而正式的规则——``除了那些还没学会飞翔的幼鸟,因为生病或是受伤而失去了飞翔能力的鸟,包括食火鸟(cassowary)、鸵鸟(ostrich)、几维(kiwi,一种新西兰产的无翼鸟)等不会飞的鸟类……以外,鸟儿会飞'',很难应用、维护和沟通,即使经过这么多的努力,这个规则还是很脆弱而且容易失效。 尽管我们的确需要一种用以对不确定性进行表示和推理的方法,但是概率论并不能明显地提供我们在\gls{AI}领域需要的所有工具。 概率论最初的发展是为了分析事件发生的频率。 我们可以很容易地看出概率论,对于像在扑克牌游戏中抽出一手特定的牌这种事件的研究中,是如何使用的。 这类事件往往是可以重复的。 -当我们说一个结果发生的概率为$p$,就意味着如果我们反复实验(例如,抽取一手牌)无限次,有$p$的比例会导致这样的结果。 +当我们说一个结果发生的概率为$p$,这意味着如果我们反复实验(例如,抽取一手牌)无限次,有$p$的比例可能会导致这样的结果。 这种推理似乎并不立即适用于那些不可重复的命题。 如果一个医生诊断了病人,并说该病人患流感的几率为40\%,这意味着非常不同的事情——我们既不能让病人有无穷多的副本,也没有任何理由去相信病人的不同副本在具有不同的潜在条件下表现出相同的症状。 -在医生诊断病人的情况下,我们用概率来表示一种\firstgls{degree_of_belief},其中1表示非常肯定病人患有流感,而0表示非常肯定病人没有流感。 -前面一种概率,直接与事件发生的频率相联系,被称为\firstgls{frequentist_probability};而后者,涉及到确定性水平,被称为\firstgls{bayesian_probability}。 +在医生诊断病人的例子中,我们用概率来表示一种\firstgls{degree_of_belief},其中1表示非常肯定病人患有流感,而0表示非常肯定病人没有流感。 +前面那种概率,直接与事件发生的频率相联系,被称为\firstgls{frequentist_probability};而后者,涉及到确定性水平,被称为\firstgls{bayesian_probability}。 -如果要列出一些关于不确定性的常识推理中我们希望其具有的性质,那么满足这些性质的唯一一点就是将\gls{bayesian_probability}和\gls{frequentist_probability}视为等同的。 -例如,如果我们要在扑克牌游戏中根据玩家手上的牌计算她能够获胜的概率,我们和医生情境使用完全相同的公式,就是我们依据病人的某些症状计算她是否患病的概率。 -有关一个小集合的常识假设为什么能够导出相同公理的细节必须深入了解这两种概率,参见~\cite{Ramsey1926}。 +关于不确定性的常识推理,如果我们已经列出了若干条我们期望它具有的性质,那么满足这些性质的唯一一种方法就是将\gls{bayesian_probability}和\gls{frequentist_probability}视为等同的。 +例如,如果我们要在扑克牌游戏中根据玩家手上的牌计算她能够获胜的概率,我们使用和医生情境完全相同的公式,就是我们依据病人的某些症状计算她是否患病的概率。 +为什么一小组常识性假设蕴含了必须是相同的公理控制两种概率?更多的细节参见~\cite{Ramsey1926}。 % -- 53 -- @@ -343,8 +343,8 @@ \subsection{\glsentrytext{multinoulli_distribution}} \gls{multinomial_distribution}是$\{0,\ldots, n\}^k$中的向量的分布,用于表示当对~\gls{multinoulli_distribution}采样$n$次时$k$个类中的每一个被访问的次数。 很多文章使用``\gls{multinomial_distribution}''而实际上说的是~\gls{multinoulli_distribution},但是他们并没有说是对$n=1$的情况,这点需要注意。} \gls{multinoulli_distribution}由向量$\Vp \in [0, 1]^{k-1}$参数化,其中每一个分量$p_i$表示第$i$个状态的概率。 -最后的第$k$个状态的概率可以通过$1-\bm{1}^\top \Vp$给出。 -注意我们必须限制$\bm{1}^\top\Vp\le 1$。 +最后的第$k$个状态的概率可以通过$1-\Vone^\top \Vp$给出。 +注意我们必须限制$\Vone^\top \Vp \le 1$。 \gls{multinoulli_distribution}经常用来表示对象分类的分布,所以我们很少假设状态1具有数值1之类的。 因此,我们通常不需要去计算~\gls{multinoulli_distribution}的\gls{RV}的\gls{expectation}和\gls{variance}。 @@ -429,9 +429,9 @@ \subsection{\glsentrytext{exponential_distribution}和\glsentrytext{laplace_dist 在深度学习中,我们经常会需要一个在$x=0$点处取得边界点(sharp point)的分布。 为了实现这一目的,我们可以使用\firstgls{exponential_distribution}: \begin{equation} -p(x; \lambda) = \lambda \bm{1}_{x\ge 0} \exp(-\lambda x). +p(x; \lambda) = \lambda \Vone_{x\ge 0} \exp(-\lambda x). \end{equation} -指数分布使用\gls{indicator_function}(indicator function)$\bm{1}_{x\ge 0}$来使得当$x$取负值时的概率为零。 +指数分布使用\gls{indicator_function}(indicator function)$\Vone_{x\ge 0}$来使得当$x$取负值时的概率为零。 一个联系紧密的\gls{PD}是\firstgls{laplace_distribution},它允许我们在任意一点$\mu$处设置概率质量的峰值 \begin{equation} diff --git a/Chapter9/convolutional_networks.tex b/Chapter9/convolutional_networks.tex index 02de8e6..50fa4d5 100644 --- a/Chapter9/convolutional_networks.tex +++ b/Chapter9/convolutional_networks.tex @@ -91,7 +91,7 @@ \section{卷积运算} % -- 323 -- 卷积运算可交换性的出现是因为我们将核相对输入进行了\firstgls{flip},从$m$增大的角度来看,输入的索引在增大,但是核的索引在减小。 -我们将核翻转的唯一目是实现可交换性。 +我们将核翻转的唯一目的是实现可交换性。 尽管可交换性在证明时很有用,但在神经网络的应用中却不是一个重要的性质。 与之不同的是,许多神经网络库会实现一个相关的函数,称为\firstgls{cross_correlation},和卷积运算几乎一样但是并没有对核进行翻转: \begin{equation} @@ -817,7 +817,7 @@ \section{数据类型} 例如,考虑一组图像的集合,其中每个图像具有不同的高度和宽度。 目前还不清楚如何用固定大小的权重矩阵对这样的输入进行建模。 -卷积就可以很直接地应用;核依据输入的大小简单地被使用不同次,并且卷积运算的输出也相应地缩放。 +卷积就可以很直接地应用;核依据输入的大小简单地被使用不同次,并且卷积运算的输出也相应地放缩。 卷积可以被视为矩阵乘法;相同的卷积核为每种大小的输入引入了一个不同大小的\gls{doubly_block_circulant_matrix}。 有时,网络的输出允许和输入一样具有可变的大小,例如如果我们想要为输入的每个像素分配一个类标签。 在这种情况下,不需要进一步的设计工作。 @@ -866,7 +866,7 @@ \section{随机或无监督的特征} 最后,可以使用无监督的标准来学习核。 例如,\cite{Coates2011}将$k$均值聚类算法应用于小图像块,然后使用每个学得的中心作为卷积核。 第\ref{part:deep_learning_research}部分描述了更多的无监督学习方法。 -使用无监督的标准来学习特征,使得它们能够与位于网络结构顶层的分类层相互独立地确定。 +使用无监督的标准来学习特征,允许这些特征的确定与位于网络结构顶层的分类层相分离。 然后只需提取一次全部训练集的特征,构造用于最后一层的新训练集。 假设最后一层类似\gls{logistic_regression}或者\,\glssymbol{SVM},那么学习最后一层通常是凸优化问题。 @@ -1091,7 +1091,7 @@ \section{\glsentrytext{convolutional_network}的神经科学基础} 换句话说,复杂细胞对于图像在方向$\tau$上的微小变换或者翻转图像(用白色代替黑色,反之亦然)具有不变性。 神经科学和机器学习之间最显著的对应关系,是从视觉上比较机器学习模型学得的特征与使用V1得到的特征。 -\cite{Olshausen+Field-1996}说明,一个简单的无监督学习算法,稀疏编码,学习的特征具有与简单细胞类似的接受域\footnote{译者注:这里原文是``receptive field'',生物中称之为``感受野''}。 +\cite{Olshausen+Field-1996}说明,一个简单的无监督学习算法,稀疏编码,学习的特征具有与简单细胞类似的感受野\footnote{译者注:这里原文是``receptive field'',生物中称之为``感受野''}。 从那时起,我们发现,当应用于自然图像时,极其多样的统计学习算法学习类\gls{Gabor_function}的特征。这包括大多数深度学习算法,它们在其第一层中学习这些特征。 \figref{fig:chap9_feature_detectors}给出了一些例子。 因为如此众多不同的学习算法学习边缘检测器,所以很难仅基于学习算法学得的特征,来断定哪一个特定的学习算法是``正确''的大脑模型(虽然,当应用于自然图像时,如果一个算法\emph{不能}学得某种检测器时,它能够作为一种否定标志)。 diff --git a/README.md b/README.md index 34189d1..f5376e1 100644 --- a/README.md +++ b/README.md @@ -41,7 +41,7 @@ | ------------ | ------------ | ------------ | ------------ | ------------ | | [第一章 前言](https://exacity.github.io/deeplearningbook-chinese/Chapter1_introduction/) | @swordyork | lc, @SiriusXDJ, @corenel, @NeutronT | @linzhp | 完成合并 | | [第二章 线性代数](https://exacity.github.io/deeplearningbook-chinese/Chapter2_linear_algebra/) | @liber145 | @SiriusXDJ, @angrymidiao | @badpoem | 完成合并 | -| [第三章 概率与信息论](https://exacity.github.io/deeplearningbook-chinese/Chapter3_probability_and_information_theory/) | @KevinLee1110 | @SiriusXDJ | @kkpoker | 完成合并 | +| [第三章 概率与信息论](https://exacity.github.io/deeplearningbook-chinese/Chapter3_probability_and_information_theory/) | @KevinLee1110 | @SiriusXDJ | @kkpoker, @Peiyan | 完成合并 | | [第四章 数值计算](https://exacity.github.io/deeplearningbook-chinese/Chapter4_numerical_computation/) | @swordyork | @zhangyafeikimi | @hengqujushi | 完成合并 | | [第五章 机器学习基础](https://exacity.github.io/deeplearningbook-chinese/Chapter5_machine_learning_basics/) | @liber145 | @wheaio, @huangpingchun | @fairmiracle, @linzhp | 完成合并 | | [第六章 深度前馈网络](https://exacity.github.io/deeplearningbook-chinese/Chapter6_deep_feedforward_networks/) | @KevinLee1110 | David_Chow, @linzhp, @sailordiary | | 完成合并 | diff --git a/math_symbol.tex b/math_symbol.tex index 550827e..9cf6252 100644 --- a/math_symbol.tex +++ b/math_symbol.tex @@ -255,6 +255,7 @@ \newcommand{\Vomega}{\boldsymbol{\omega}} \newcommand{\Vpsi}{\boldsymbol{\psi}} \newcommand{\Vzeta}{\boldsymbol{\zeta}} +\newcommand{\Vone}{\boldsymbol{1}} \newcommand{\CalB}{\mathcal{B}}