Skip to content

Latest commit

 

History

History

ch2

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 

小世界和大世界

  1492年当哥伦布开始他那臭名昭著的航海的时候,他就相信地球是圆的。这一点上跟那个时候受过教育的人的认知是相同的。但是跟其他人不同的是,他认为地球要小的多,直径大约3万公里而不是实际上的4万公里(图2-1)。这是欧洲历史上很重要的错误之一。如果哥伦布相信地球直径是4万公里,他肯定能推算出船队不可能携带足够的食物和淡水到达亚洲。但如果是3万的话,亚洲就位于加利福尼亚海岸西边一点点。这样得出的结论就是可以到达的。基于这样乐观的估计,哥伦布才开始航海,最终在巴哈马登陆。

figure2-1

马丁·贝海姆绘制的哥伦布使用的1492年的世界地图,欧洲在右边,亚洲在左边,那个写着Cipangu的岛是日本

  哥伦布基于地球很小的假设做出了预测。但是实际地球很大,所以各种预测都是错的。哥伦布很幸运,沿途有很多陆地。但如果不幸,欧洲和亚洲之间没陆地,哥伦布的探险队在到达东印度群岛之前补给早就耗光了。

  哥伦布的小世界和大世界跟统计建模和现实应用之间的关系很类似。所有的统计模型都是在一个小世界建立的,但是真实应用却是在大世界中。在两个世界之间转换仍然是统计建模的核心问题。时刻都得主意。

  小世界对应模型的逻辑世界。在小世界中所有的情况都能考虑到,没有什么意外情况,就像我们已经明确知道欧洲亚洲之间还有大陆存在。在小世界中最重要的事情是验证模型的逻辑按照我们预想的在运转。贝叶斯模型因为对优化有比较合理的要求,所以在这一点上有优势:如果假设小世界是对现实世界的精确描述,那么没有比贝叶斯模型能更好的应用这些数据做作决策的模型了。

  现实世界才是模型部署的环境。在现实世界中会有意想不到的情况发生。而且模型通常表示的是现实世界的一部分,所以即使所有的情况都考虑到也可能出错。小世界的逻辑一致在现实世界中不一定是最优的。只是个心理安慰罢了。

  本章我们开始构建贝叶斯模型。贝叶斯模型从证据中学习的构建过程在小世界中可以说是最优方式。如果假设与现实世界比较接近,贝叶斯模型在现实世界中也会表现良好。但是必须在现实世界中证明,不能只靠逻辑推断。两个世界穿插会用到很多形式化方法(比如贝叶斯推断)和非形式化方法(比如同行的评审),都很重要。

  本章主要关注小世界。用最基础的形式解释了一下概率论:对事物的所有可能性计数。贝叶斯推断就是这样自然产生的,然后介绍了贝叶斯统计模型的一些形式化的组件,一个通过数据学习的模型。再然后介绍了怎么驱动模型产生估计结果。

  本章是后续章节的基础,主要学习怎么解读贝叶斯估计并考虑现实世界

思考:现实世界的快速与节俭。 自然界很复杂,做过科研的都领教过。小小的虱子,活蹦乱跳的松鼠,闲散的树懒这些动物都能做出是适应性的决策。但是我敢打赌它们都不懂贝叶斯,因为贝叶斯很复杂并且依赖一个好的模型。但是动物也会利用很多过去的现在的信息去适应环境。一旦收集和处理了(也可能过拟合,第六章)有价值的信息,动物的适应迅速而直接,比贝叶斯分析好的多。一旦知道哪些信息有用,哪些没用,再贝叶斯就是纯属浪费时间。跟动物一样,参照它做决策既没必要也不充分。但是对人来说,贝叶斯方法提供了一种发现和联系信息的方法。当然也还有其他的很多中方法。