Xi's profile:: Here I Stand ::PhotosBlogLists Tools Help
    September 15

    概率的哲学基础和逻辑结构

     
    当年在大学学习概率的时候,我时常被一些问题所困扰。这些问题,总结起来,大约总是从具体的问题到抽象的概念,从外延慢慢深入核心:
    • 为什么一个骰子得到每个面的概率是1/6?(这个问题显得很傻,但是我现在回过头来看,通往哲学思辨入口的问题,往往都是很幼稚和看起来很可笑的。)
    • 如果天气预报告诉我,明天下雨的可能性是60%,这个信息对我有什么用?我该带伞么?如果你说不带,那么要是它说65%呢?75%,85%呢?
    • 于是,我迷茫了:什么是概率?什么是可能性?它的历史背景是什么?它的哲学基础是什么?

    我利用课余的时间,翻看了一些相关的书,其中有概率和统计学科历史的,有概率和统计的教科书,还有一些科学哲学的论稿,在这里总结一下,权当学习笔记了吧。这里面很多东西说得比较业余也不尽严谨,希望看完的朋友们能帮助我完善这份读书笔记。谢谢。

    PS: 由于引用的文献较多,检查每则信息的具体来源耗时耗力,所以我只在文后附上文献的出处,不再赘述具体页码等信息。


    在18、19世纪的时候,随着自然科学的发展,欧洲出现了一种叫做“决定论 (Determinism) ”的哲学观。这个事情影响很大。为什么呢?因为之前科技不发达的时候,自然界很多现象都解释不了(尤其是那些违背常理的),比如为什么一本书和一只铅球从同一高度落下最终会同时落地。当然,这还不算很玄乎的事情。还有一些比较玄乎的事情,比如为什么有的时候天空中会急速地掠过一些星星。是上帝在玩保龄球么?是宙斯在玩星际争霸么?—— 那时的人们不知道。于是,很多解释不了的事情,都被归因于上帝的力量。这个很自然,因为人们在缺乏安全感的时候,总需要一些信仰,比如这里就是人们对未知的缘由感到缺乏安全感。人们于是像阿Q一样 —— 知足了,直到一帮科学家抛出了“决定论”这件大杀器。

    决定论(Determinism)说的是,世界就像一座庞大而复杂的时间机器,只要知道了机器的运转规律和规则,就能够描述机器在任意时刻的运转现象(这又叫“机械式宇宙观”),当然这包括了过去、现在和未来。也就是说,所有的现象都是可以由自然定律来解释的。有一天,拉普拉斯在拜见拿破仑的时候,拿破仑问他:“我发现你预测星星位置的论述中,没有提到上帝啊?”拉普拉斯说 —— 我不需要这个假设条件。是的,18、19世纪的科学家们信心极度膨胀 —— 他们不需要上帝。直到20世纪,关于决定论的争论仍然不断。著名的物理学家爱因斯坦是一个固执的决定论者,他在写给波尔的信中说道:

    “你信仰投骰子的上帝,我却信仰完备的定律和秩序。”

    更多相关的内容可以看看一本叫做《上帝掷骰子么?-量子物理史话》的小书,讲了一些量子力学的东西,比较浅显。

    我也支持这种说法。但是,世界太复杂了,规则是不可能尽数的。于是,拉普拉斯的模型里用到了一个叫做误差函数的东西,囊括了所有造成与他的模型预测结果不一致的原因。我们看出来了,这其实就是回归模型。再到后来,人们发现已有的物理定律和自然规律没有办法解释更多的自然和社会现象 —— 人们又要寻找寄托了。但是这次不是上帝,而是类似于拉普拉斯曾经做过的—— 随机性

    我这里补充一句,从哲学上来说,我倾向于决定论,因为即使认识所有可能的自然规律是不可能的(对于意识是否能够超越物质世界而认识其客观规律,这里涉及到了意识的“主观能动性”的争论,由于超出了本文的范围,这里就不讨论了),也不能从逻辑上对“决定论”证伪。当然,这不是重点,我们接着讲主线。

    那么,到底什么是概率? 

    Bickel 在他的书中提到对随机现象的一个描述:对于同一输入,我们可以得到同一输出。对于类似的输入,我们得到可能输出中的一种。这种可能性,就是随机性。比如我们投掷硬币,比如我们用同样的力量,朝着同样的方向投掷(即,尽量保证实验在类似条件下进行),我们可以得到H(头面)或者T(背面)两种可能的结果。注意,这里的实验条件是类似,而不是同一 —— 因为你不可能创造同一的实验条件。比如说,你的力量是由肌肉控制的,不可能完全精准,即使使用机器,也存在由于电压或者转轴力矩的变化造成输出力量的不同。当然,影响实验条件的因素还有很多种,不可能一一列举 —— 我们把他们都叫做随机因素,正是它们决定了我们只能在“类似”的条件下进行重复试验,得到若干种可能性中的一种。

    那么什么是概率呢?很多书里都提到了:概率是对可能性的量化描述。我对这个定义不满意:怎么量化?怎么描述?那么,让我们看看一些经典的定义。

    • 浙大版《概率论与数理统计》是这么定义的:对实验E的每一事件A赋于一个实数,记为P(A),称为A的概率。—— 那么我有问题:谁来赋予这些“实数”?
    • 复旦版《概率论与数理统计》是这么定义的:多次重复同一随机试验,随着n的增加,频率k/n将稳定于某一固定常数p,p的大小度量了随机事件A发生的可能性的大小,称它为事件A发生的概率,记为P(A)=P。—— 那我又有问题:你怎么知道频率稳定于某一常数?实践上来说,除非做无穷多次试验(这是不可能的),要不然你不能说频率稳定于一常数,1万次稳定了?不行。10万次?不行。必须要是无穷次我才信。所以,你不能让我相信。那么另一方面,理论上来说,除非你找到一个数学公式,证明它在数学上收敛,我才信。有数学公式么?没有,因为这是一个先有蛋还是先有鸡的悖论。

    我想着重补充说明的是,上面的讨论,焦点不在“概率论的结构是否严谨”,这个工作已经由Kolmogorov用公理系统做完了,具体的工作总结可以参考任何一本实分析/测度论或者比较数学化一点的概率论的教科书。我的问题是:“决定概率?”据我个人的见解,在概率论中,概率是一个定义,可以说是已知的模型结构中的一个参数,数学家不关心它;但是,在统计学中,我们先有的是数据,然后再来决定数学模型的结构和参数。所以,数学/概率论不关心也不决定概率,他们关心定义概率的逻辑是否严谨;而统计学关心的是如何决定概率。所以,我问的是一个统计学的问题,而不是一个概率论的问题。我希望我表达清楚了。

    这下回到了开始的那个问题:为什么一个骰子得到每个面的概率是1/6?如果我做了6000次试验,得到了1点的次数是1030,为什么你不说得到1点这个面的概率是1030/6000,你说是1/6有什么道理?

    其实这个问题说不清楚。为什么呢?这里涉及一个稍微复杂一点的问题,也是一场争论,这就是关于频率学派(Frequentist)和贝叶斯学派(Bayesian)的争论。简单来说,频率学派认为:概率是确定的,但是是未知的贝叶斯学派认为:概率是不确定的,它是一个分布。

    我倾向于频率学派的哲学思想,但是实际应用中我倾向于使用贝叶斯学派的工具和方法。

    频率学派认为,只要我做无数次试验(尽管不可能),再统计其频率,就能得到它的概率。就比如说,PI是一个确定的无限不循环小数,但是你能知道它的小数点后有多少个9么?事实上,我们能看到,这里有“决定论”的哲学根源,这也是我为什么开篇谈到“决定论”的原因。贝叶斯学派把问题都抛给了“神”,认为概率是上帝在玩骰子。我们在游戏中扮演上帝,于是就有了先验分布(prior)。—— 频率学家很鄙视这一点。不过无论怎么样,贝叶斯学派又为人们找到了一次“信仰”和“归宿”。翻来倒去,终归是一个关于意识是否能够超于自然的哲学基本问题。但是无论怎么样,这是我倾向频率学派哲学思想的理由 —— “决定论”。

    那么我为什么倾向应用贝叶斯学派的方法和工具呢?

    我们首先注意一个问题:频率学派的核心在于,随机实验必须是能够在相似条件下无数次重复进行的。我们看看频率学派的主干内容:统计量、假设检验、参数估计等等。我们发现,他们的基础都是基于大数定理和中心极限定理。比如说数学期望,我取了一堆数,得到了均值,我说它是mean的无偏估计。什么是无偏估计,就是数学期望等于mean。这里就涉及到了“无数次重复”的问题。

    那么,现实中,或者说工程实践中很多东西是不可重复的,但是它们也是随机现象 —— 或者说不可知现象。比如说:明天下雨的可能性有多大?明天是一个点,是不可重复的。哲学中有一个说法“一个人不能跨过两条一模一样的河。”你不可能重复很多次2009年9月15号, —— 是的,有且仅有一次。但是它也是不确定的,或者不严谨的说,是随机的。

    那么,现在我们该提到另外两个重要的概念了:客观概率(Objective Probability)主观概率(Subjective Probability)。客观概率是对能够多次重复的随机事件发生的可能性的度量;主观概率是对一次性事件的一种估计、一种预测。事实上,经济学上有 Normative 和 Positive 的提法,依我看,客观概率是 positive 的,主观概率是 normative 的。事实上,在人们还在投骰子的时候,概率机遇是有区别的。概率叫做probability,机遇叫做chance. Probability是主观概率,而chance是客观概率。客观概率是频率学派的基础,主观概率是贝叶斯学派的基础。

    如此说来,针对预测的应用,贝叶斯的方法应该是更有效的。正如C. R. Rao所说:

    不确定性知识 + 所含不确定性量度的知识 = 可用的知识

    这里的“不确定性知识”也许可以理解为likelihood中的未知参数,而“所含不确定性量度的知识”也许可以理解为参数的prior,“可用的知识”就是posterior了。更具体的说,就是我有一批样本(X),但是我不确定这批样本是从哪个总体(mu)那里来的,于是有了一个likelihood function。注意,这里的likelihood是参数的一个函数,比如mu,却是X的一个分布。也就是说,对X来说,这个likelihood是一个分布;而对mu来说,它是一个函数。另一方面,尽管mu是不确定的,但是我有量度的知识,这就是prior,比如说mu=0.1的概率是多少,mu=0.2的概率又是多少。然后,结合这两个信息,我就能推断出有用的信息了(posteriror)。一个贝叶斯的公式,C. R. Rao赋予了哲学的含义 —— 这才是大师。当然了,C. R. Rao自己是贝叶斯学派的,也许他讲的东西有bias的。

    最后了。仍然是那个老问题,概率论本身是严谨的,无论频率学派还是贝叶斯学派都是站在Kolmogorov的肩膀上的。概率论本身是理论,是严谨的,统计学只是应用罢了,还有很多值得争议的问题,这也就是我在一篇旧文中说到我不觉得统计学是数学的提法。另外,钟开莱作为一个概率学家也说过:“I hate statistician“,尽管他的老师是一个统计学家。事实上,美国的统计学偏重数学化和理论化(现在好了许多),主要原因是当时Neyman的个人因素;中国的统计学偏数学化(现在也好多了),主要是受了苏联人的影响。

    总结来说,

    • 统计学不是数学,概率论是数学中有着严谨的理论体系的一支,而统计学应该单独列出来,或者至少列为应用数学。
    • 频率学派和贝叶斯学派的主要的分歧就在于:谁决定了概率?频率学派认为概率是确定的,但是是不可知的;而贝叶斯学派认为概率是随机分布的。
    • 频率学派的产生有它的历史原因,因为统计理论是从概率论中间产生出来的(大数定理和中心极限),我信仰频率学派的哲学;但是贝叶斯学派是务实的,是适用于工程的,适用于预测和推断的。
    • 值得补充的一点是,虽然Kolmogorov用公理化系统奠定了概率论的逻辑基础,但是他并没有定义什么是概率。

    限于自己的认知能力,文中肯定有很多偏颇甚至错误的理解和认识,敬请谅解。

    :: END ::

    Ref:
    1. Savage, L. J., The Foundations of Statistics, New York: J. Wiley & Sons, 1954
    2. Savage, L. J., The Foundation of Statistical Inference, London: Methuen & Co., 1962
    3. Raiffa, H., and R. Schlaiffer, Applied Statistical Decisioin Theory, Division of Research, Graduate School of Business Administratioin. Boston: Harvard University, 1961
    4. Lindley, D. V., Introduction to Probability and Statistics from a Bayesian Point of View, Part I: Probability; Part II: Inference London: Cambridge University Press, 1965
    5. De Groot, M. H., Optimal Statistical Decisions, New York: McGraw Hill, 1970
    6. Berger, J. O., Statistical Decisioin Theory and Bayesian Analysis, New York: Springer, 1985
    7. Bickel, P. J., and Doksum, K. A., Mathematical Statistics Basic Ideas and Selected Topics, Vol I, New Jersey: Prentice-Hall, 2001
    8. David Salsburg, The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century
     

     
    PS: 以前我一直以为,prior和posterior取成共轭分布是为了简化计算,找到posterior的解析式。现在看来,这个想法是不尽正确的。因为prior和posterior都是关于参数的分布,逻辑上理所当然的应该属于同一类分布。我以前把逻辑关系搞反了,不应该是为了简化计算而用conjugate的prior,而是逻辑上应该用conjugate的prior,恰好这种prior能简化计算罢了。我想,这也许也是数学的美和给人带来的惊喜之一吧。
     

     
    Xi Tan @ West Lafayette, IN, USA
    03:55am
     

    Comments (2)

    Please wait...
    Sorry, the comment you entered is too long. Please shorten it.
    You didn't enter anything. Please try again.
    Sorry, we can't add your comment right now. Please try again later.
    To add a comment, you need permission from your parent. Ask for permission
    Your parent has turned off comments.
    Sorry, we can't delete your comment right now. Please try again later.
    You've exceeded the maximum number of comments that can be left in one day. Please try again in 24 hours.
    Your account has had the ability to leave comments disabled because our systems indicate that you may be spamming other users. If you believe that your account has been disabled in error please contact Windows Live support.
    Complete the security check below to finish leaving your comment.
    The characters you type in the security check must match the characters in the picture or audio.

    To add a comment, sign in with your Windows Live ID (if you use Hotmail, Messenger, or Xbox LIVE, you have a Windows Live ID). Sign in


    Don't have a Windows Live ID? Sign up

    shu gongwrote:
    感觉频率学派看到的是一个理想中的完美均匀的骰子
    贝叶斯学派则看到的是现实中不完美甚至灌了水银灌了铅的骰子
    Sept. 16
    Merlin Meiwrote:
    呵欠……
    Sept. 15

    Trackbacks

    The trackback URL for this entry is:
    http://tancy.spaces.live.com/blog/cns!C3D89C3E66DCD925!1713.trak
    Weblogs that reference this entry
    • None