香哥的怪盗史
【再次求助】暴走漫画果断害死我,2怎么又等于1了

本帖最后由 香哥的怪盗史 于 2012-9-4 23:35 编辑

这个是今天看到的暴走漫画,看了好久发现……这是个坑。。。

!97!暴走漫画你害死我啊!!!我高中之后就没有学过数学了啊魂蛋!!!

我不相信啊,这个是不是说“2”和“1”是类似XY一样的变量。。。不关乎自然数字“2”和“1”的事情吧@86#

这个问题基本算是解决了~很久没怎么看这个帖子,发现后来回复的有好多哦~都是我的错~被暴漫这么一绕,都忘记了除法时除数为零时不可以直接除,以后大家可以这么告诫弟弟妹妹,侄子侄女外甥外甥女,儿子女儿,孙子孙女儿~@@13!!

chensi0402
青雨、柒
为自己的智商满满开森
展开Biu

@@7!!为自己的智商满满开森,,,啊哈哈哈,看出来里

[查看全文]
seaice无水
香哥的怪盗史
蓝蓝的蔧蔧╹.╹
578168956
方程两边好像不能同时加减吧
展开Biu

方程两边好像不能同时加减吧?

[查看全文]
Clytze_swift
我觉得暴走漫画里面用极限思想解决圆周率的那
展开Biu

blackhand01 发表于 2012-4-24 08:46

我觉得暴走漫画里面用极限思想解决圆周率的那个特别有意思……π=4……

0.0原来是暴走漫画里的→_→

[查看全文]
Clytze_swift
查看更多
待锦书丶
4 个 0 计算出24点...

本帖最后由 待锦书丶 于 2012-3-20 08:12 编辑

`35` 这是多么深奥的东西阿....

hjtjjcjj
yourgoodlife
这分明是脑筋急转弯
展开Biu

阶乘 整点

这分明是脑筋急转弯

[查看全文]
ngbshzhn
长知识了
展开Biu

长知识了

[查看全文]
寻物启示77
寻物启示77回复给帖子:343487
展开Biu

~58@-------------------~36@

[查看全文]
轩辕一羽
难道同学你是斯坦福的吗
展开Biu

Ca(OH)2 发表于 2014-3-6 09:22

难道同学你是斯坦福的吗!!!!!!!!

这都想得出来。

能有几个人看得懂啊! ...

学计算机的大一(最多大二)学生应该都能懂……

[查看全文]
Ca(OH)2
某次做数学作业是看到虚数
展开Biu

616288721 发表于 2013-1-13 16:30

某次做数学作业是看到虚数(现在还没学到),会不会用这个东西?

虚数用不到吧

(同学你自学虚数就够了,其实很简单)

[查看全文]
Ca(OH)2
轩辕一羽
展开Biu

轩辕一羽 发表于 2012-10-1 00:22

还可以这样:

一个0先阶乘变成1,然后向左位移3次变成8,剩下三个0阶乘变成1加起来变成3,然后8*3=24…… ...

难道同学你是斯坦福的吗!!!!!!!!

这都想得出来。

能有几个人看得懂啊!

[查看全文]
今十六
果然是神一般的答案
展开Biu

00:00 果然是神一般的答案

[查看全文]
查看更多
zp_hy
公钥加密算法是

RSA公钥加密算法是1977年由Ron Rivest、Adi Shamirh和LenAdleman在(美国麻省理工学院)开发的。RSA取名来自开发他们三者的名字。RSA是目前最有影响力的公钥加密算法,它能够抵抗到目前为止已知的所有密码攻击,已被ISO推荐为公钥数据加密标准。RSA算法基于一个十分简单的数论事实:将两个大素数相乘十分容易,但那时想要对其乘积进行因式分解却极其困难,因此可以将乘积公开作为加密密钥。
RSA公开密钥密码体制。所谓的公开密钥密码体制就是使用不同的加密密钥与解密密钥,是一种“由已知加密密钥推导出解密密钥在计算上是不可行的”密码体制。
  在公开密钥密码体制中,加密密钥(即公开密钥)PK是公开信息,而解密密钥(即秘密密钥)SK是需要保密的。加密算法E和解密算法D也都是公开的。虽然秘密密钥SK是由公开密钥PK决定的,但却不能根据PK计算出SK。正是基于这种理论,1978年出现了著名的RSA算法,它通常是先生成一对RSA 密钥,其中之一是保密密钥,由用户保存;另一个为公开密钥,可对外公开,甚至可在网络服务器中注册。为提高保密强度,RSA密钥至少为500位长,一般推荐使用1024位。这就使加密的计算量很大。为减少计算量,在传送信息时,常采用传统加密方法与公开密钥加密方法相结合的方式,即信息采用改进的DES或IDEA对话密钥加密,然后使用RSA密钥加密对话密钥和信息摘要。对方收到信息后,用不同的密钥解密并可核对信息摘要。
RSA算法是第一个能同时用于加密和数字签名的算法,也易于理解和操作。RSA是被研究得最广泛的公钥算法,从提出到现在的三十多年里,经历了各种攻击的考验,逐渐为人们接受,普遍认为是目前最优秀的公钥方案之一。
RSA的缺点主要有:A)产生密钥很麻烦,受到素数产生技术的限制,因而难以做到一次一密。B)分组长度太大,为保证安全性,n 至少也要 600bits以上,使运算代价很高,尤其是速度较慢,较对称密码算法慢几个数量级;且随着大数分解技术的发展,这个长度还在增加,不利于数据格式的标准化。目前,SET(Secure Electronic Transaction)协议中要求CA采用2048bits长的密钥,其他实体使用1024比特的密钥。C)RSA密钥长度随着保密级别提高,增加很快。下表列出了对同一安全级别所对应的密钥长度。

保密级别
对称密钥长度(bit)
RSA密钥长度(bit)
ECC密钥长度(bit)
保密年限
80
80
1024
160
2010
112
112
2048
224
2030
128
128
3072
256
2040
192
192
7680
384
2080
256
256
15360
512
2120
 这种算法1978年就出现了,它是第一个既能用于数据加密也能用于数字签名的算法。它易于理解和操作,也很流行。算法的名字以发明者的名字命名:Ron Rivest, AdiShamir 和Leonard Adleman。早在1973年,英国国家通信总局的数学家Clifford Cocks就发现了类似的算法。但是他的发现被列为绝密,直到1998年才公诸于世。
  RSA算法是一种非对称密码算法,所谓非对称,就是指该算法需要一对密钥,使用其中一个加密,则需要用另一个才能解密。
  RSA的算法涉及三个参数,n、e1、e2。
  其中,n是两个大质数p、q的积,n的二进制表示时所占用的位数,就是所谓的密钥长度。
  e1和e2是一对相关的值,e1可以任意取,但要求e1与(p-1)*(q-1)互质;再选择e2,要求(e2*e1)mod((p-1)*(q-1))=1。
  (n及e1),(n及e2)就是密钥对。
  RSA加解密的算法完全相同,设A为明文,B为密文,则:A=B^e1 mod n;B=A^e2 mod n;
  e1和e2可以互换使用,即:
  A=B^e2 mod n;B=A^e1 mod n;

已公开的攻击方法:

针对RSA最流行的攻击一般是基于大数因数分解。1999年,RSA-155(512 bits)被成功分解,花了五个月时间(约8000 MIPS 年)和224 CPU hours 在一台有3.2G中央内存的Cray C916计算机上完成 。
  2002年,RSA-158也被成功因数分解。
  2009年12月12日,编号为 RSA-768 (768 bits, 232 digits)数也被成功分解。
  北京时间2月15日上午消息,据《纽约时报》周二报道,欧美数学家和密码学家偶然发现,目前被全世界广泛应用的公钥加密算法RSA存在漏洞。
  他们发现,在700万个实验样本中有2.7万个公钥并不是按理论随机产生的。也就是说,或许有人可以找出产生公钥的秘密质数。
  该研究项目是由美国独立密码学家James P.Hughes和荷兰数学家Arjen K. Lenstra牵头的。他们的报告称:“我们发现绝大多数公钥都是按理论产生的,但是每一千个公钥中会有两个存在安全隐患。”
  报告称,为防止有人利用该漏洞,有问题的公钥已从公众访问的数据库中移除。为确保系统的安全性,网站需要在终端做出改变。

flynntjszs
看得我就不想看
展开Biu

看得我就不想看

[查看全文]
叶神京
考试考过这个表示很头大=-= 老师你给那么
展开Biu

考试考过这个表示很头大=-= 老师你给那么大的数字给我们作甚 嫌我们考试时间不够少麽…………

[查看全文]
蘑菇冬
好帅的样子
展开Biu

好帅的样子

[查看全文]
轻舟过
嘛大概是这样吧还有一段时间呢
展开Biu

zp_hy 发表于 2012-10-12 22:01

嘛大概是这样吧还有一段时间呢= =话说这都多久前的帖子了= =

没注意时间呢,看到在前面就回了一下

[查看全文]
zp_hy
在量子计算机上有高效的分解算法
展开Biu

轻舟过 发表于 2012-10-7 01:49

在量子计算机上有高效的分解算法,如果量子计算机技术成熟了,RSA也就没用了 ...

嘛大概是这样吧还有一段时间呢= =话说这都多久前的帖子了= =

[查看全文]
轻舟过
在量子计算机上有高效的分解算法,如果量子计
展开Biu

在量子计算机上有高效的分解算法,如果量子计算机技术成熟了,RSA也就没用了

[查看全文]
回首的光辉
从最后面看起 慢慢学习#7049!
展开Biu

从最后面看起 慢慢学习#7049!

[查看全文]
hcl
钟表上的数学问题

这个表看起来真是……

Kindred、
天象馆
fanghy12345
实际上应该是
展开Biu

hcl 发表于 2011-8-17 09:23

实际上应该是log(e,55)=ln(55)=4.0073331852325

log(55)的底是e

把底想成10了@43#

[查看全文]
hcl
实际上应该是
展开Biu

fanghy12345 发表于 2011-8-17 09:19

LOG(55)....

实际上应该是log(e,55)=ln(55)=4.0073331852325

log(55)的底是e

[查看全文]
fanghy12345
小初克里斯托弗
阿兔子
我只能算出来
展开Biu

我只能算出来6个啊。。。

【数学考70分的娃路过】【满分是150哦~】

[查看全文]
francis67
查看更多
fanghy12345
希尔伯特的23个数学问题

本帖最后由 fanghy12345 于 2011-8-15 15:43 编辑



希尔伯特23个数学问题 —— 在1900年巴黎国际数学家代表大会上,希尔伯特发表了题为《数学问题》的著名讲演。他根据过去特别是十九世纪数学研究的成果和发展趋势,提出了23个最重要的数学问题。这23个问题通称希尔伯特问题,后来成为许多数学家力图攻克的难关,对现代数学的研究和发展产生了深刻的影响,并起了积极的推动作用,希尔伯特问题中有些现已得到圆满解决,有些至今仍未解决。他在讲演中所阐发的想信每个数学问题都可以解决的信念,对于数学工作者是一种巨大的鼓舞。 希尔伯特的23个问题分属四大块:第1到第6问题是数学基础问题;第7到第12问题是数论问题;第13到第18问题属于代数和几何问题;第19到第23问题属于数学分析。
(1)康托的连续统基数问题。 1874年,康托猜测在可数集基数和实数集基数之间没有别的基数,即著名的连续统假设。1938年,侨居美国的奥地利数理逻辑学家哥德尔证明连续统假设与ZF集合**理系统的无矛盾性。1963年,美国数学家科思(P.Choen)证明连续统假设与ZF公理彼此独立。因而,连续统假设不能用ZF公理加以证明。在这个意义下,问题已获解决。
(2)算术公理系统的无矛盾性。 欧氏几何的无矛盾性可以归结为算术公理的无矛盾性。希尔伯特曾提出用形式主义计划的证明论方法加以证明,哥德尔1931年发表不完备性定理作出否定。根茨(G.Gentaen,1909-1945)1936年使用超限归纳法证明了算术公理系统的无矛盾性。
(3)只根据合同公理证明等底等高的两个四面体有相等之体积是不可能的。 问题的意思是:存在两个登高等底的四面体,它们不可能分解为有限个小四面体,使这两组四面体彼此全等德思(M.Dehn)1900年已解决。
(4)两点间以直线为距离最短线问题。 此问题提的一般。满足此性质的几何很多,因而需要加以某些限制条件。1973年,苏联数学家波格列洛夫(Pogleov)宣布,在对称距离情况下,问题获解决。
(5)拓扑学成为李群的条件(拓扑群)。 这一个问题简称连续群的解析性,即是否每一个局部欧氏群都一定是李群。1952年,由格里森(Gleason)、蒙哥马利(Montgomery)、齐宾(Zippin)共同解决。1953年,日本的山迈英彦已得到完全肯定的结果。
(6)对数学起重要作用的物理学的公理化。 1933年,苏联数学家柯尔莫哥洛夫将概率**理化。后来,在量子力学、量子场论方面取得成功。但对物理学各个分支能否全盘公理化,很多人有怀疑。
(7)某些数的超越性的证明。 需证:如果α是代数数,β是无理数的代数数,那么αβ一定是超越数或至少是无理数(例如,2√2和eπ)。苏联的盖尔封特(Gelfond)1929年、德国的施奈德(Schneider)及西格尔(Siegel)1935年分别独立地证明了其正确性。但超越数理论还远未完成。目前,确定所给的数是否超越数,尚无统一的方法。
(8)素数分布问题,尤其对黎曼猜想、哥德**猜想和孪生素共问题。 素数是一个很古老的研究领域。希尔伯特在此提到黎曼(Riemann)猜想、哥德**(Goldbach)猜想以及孪生素数问题。黎曼猜想至今未解决。哥德**猜想和孪生素数问题目前也未最终解决,其最佳结果均属中国数学家陈景润。
(9)一般互反律在任意数域中的证明。 1921年由日本的高木贞治,1927年由德国的阿廷(E.Artin)各自给以基本解决。而类域理论至今还在发展之中。
(10)能否通过有限步骤来判定不定方程是否存在有理整数解? 求出一个整数系数方程的整数根,称为丢番图(约210-290,古希腊数学家)方程可解。1950年前后,美国数学家戴维斯(Davis)、普特南(Putnan)、罗宾逊(Robinson)等取得关键性突破。1970年,巴克尔(Baker)、费罗斯(Philos)对含两个未知数的方程取得肯定结论。1970年。苏联数学家马蒂塞维奇最终证明:在一般情况答案是否定的。尽管得出了否定的结果,却产生了一系列很有价值的副产品,其中不少和计算机科学有密切联系。
(11)一般代数数域内的二次型论。 德国数学家哈塞(Hasse)和西格尔(Siegel)在20年代获重要结果。60年代,法国数学家魏依(A.Weil)取得了新进展。
(12)类域的构成问题。 即将阿贝尔域上的克罗内克定理推广到任意的代数有理域上去。此问题仅有一些零星结果,离彻底解决还很远。
(13)一般七次代数方程以二变量连续函数之组合求解的不可能性。 七次方程x7+ax3+bx2+cx+1=0的根依赖于3个参数a、b、c;x=x(a,b,c)。这一函数能否用两变量函数表示出来?此问题已接近解决。1957年,苏联数学家阿诺尔德(Arnold)证明了任一在〔0,1〕上连续的实函数f(x1,x2,x3)可写成形式∑hi(ξi(x1,x2),x3)(i=1--9),这里hi和ξi为连续实函数。柯尔莫哥洛夫证明f(x1,x2,x3)可写成形式∑hi(ξi1(x1)+ξi2(x2)+ξi3(x3))(i=1--7)这里hi和ξi为连续实函数,ξij的选取可与f完全无关。1964年,维土斯金(Vituskin)推广到连续可微情形,对解析函数情形则未解决。
(14)某些完备函数系的有限的证明。 即域K上的以x1,x2,…,xn为自变量的多项式fi(i=1,…,m),R为K〔X1,…,Xm]上的有理函数F(X1,…,Xm)构成的环,并且F(f1,…,fm)∈K[x1,…,xm]试问R是否可由有限个元素F1,…,FN的多项式生成?这个与代数不变量问题有关的问题,日本数学家永田雅宜于1959年用漂亮的反例给出了否定的解决。
(15)建立代数几何学的基础。 荷兰数学家范德瓦尔登1938年至1940年,魏依1950年已解决。 注一舒伯特(Schubert)计数演算的严格基础。 一个典型的问题是:在三维空间中有四条直线,问有几条直线能和这四条直线都相交?舒伯特给出了一个直观的解法。希尔伯特要求将问题一般化,并给以严格基础。现在已有了一些可计算的方法,它和代数几何学有密切的关系。但严格的基础至今仍未建立。
(16)代数曲线和曲面的拓扑研究。 此问题前半部涉及代数曲线含有闭的分枝曲线的最大数目。后半部要求讨论备dx/dy=Y/X的极限环的最多个数N(n)和相对位置,其中X、Y是x、y的n次多项式。对n=2(即二次系统)的情况,1934年福罗献尔得到N(2)≥1;1952年鲍廷得到N(2)≥3;1955年苏联的波德洛夫斯基宣布N(2)≤3,这个曾震动一时的结果,由于其中的若干引理被否定而成疑问。关于相对位置,中国数学家董金柱、叶彦谦1957年证明了(E2)不超过两串。1957年,中国数学家秦元勋和蒲富金具体给出了n=2的方程具有至少3个成串极限环的实例。1978年,中国的史松龄在秦元勋、华罗庚的指导下,与王明淑分别举出至少有4个极限环的具体例子。1983年,秦元勋进一步证明了二次系统最多有4个极限环,并且是(1,3)结构,从而最终地解决了二次微分方程的解的结构问题,并为研究希尔伯特第(16)问题提供了新的途径。
(17)半正定形式的平方和表示。 实系数有理函数f(x1,…,xn)对任意数组(x1,…,xn)都恒大于或等于0,确定f是否都能写成有理函数的平方和?1927年阿廷已肯定地解决。
(18)用全等多面体构造空间。 德国数学家比贝尔**(Bieberbach)1910年,莱因哈特(Reinhart)1928年作出部分解决。
(19)正则变分问题的解是否总是解析函数? 德国数学家伯恩斯坦(Bernrtein,1929)和苏联数学家彼德罗夫斯基(1939)已解决。
(20)研究一般边值问题。 此问题进展迅速,己成为一个很大的数学分支。日前还在继读发展。
(21)具有给定奇点和单值群的Fuchs类的线性微分方程解的存在性证明。 此问题属线性常微分方程的大范围理论。希尔伯特本人于1905年、勒尔(H.Rohrl)于1957年分别得出重要结果。1970年法国数学家德利涅(Deligne)作出了出色贡献。
(22)用自守函数将解析函数单值化。 此问题涉及艰深的黎曼曲面理论,1907年克伯(P.Koebe)对一个变量情形已解决而使问题的研究获重要突破。其它方面尚未解决。
(23)发展变分学方法的研究。 这不是一个明确的数学问题。20世纪变分法有了很大发展。

ngbshzhn
这里还有人关心这种高深的问题
展开Biu

这里还有人关心这种高深的问题?

[查看全文]
寻物启示77
寻物启示77回复给帖子:337685
展开Biu

~58@-------------------~36@

[查看全文]
寻物启示77
寻物启示77回复给帖子:337685
展开Biu

~58@-------------------~36@

[查看全文]
brillian.Z
高中的时候参考书下面有
展开Biu

高中的时候参考书下面有。。

[查看全文]
flynntjszs
太无趣了
展开Biu

太无趣了,脑洞好大

[查看全文]
小lazy
孤陋寡闻了
展开Biu

孤陋寡闻了。

[查看全文]
强叔渣渣恒久远
翻数学杂志看到过没认真看
展开Biu

@58#翻数学杂志看到过没认真看[...]马一下认真撸了

[查看全文]
双子骑士
我根本就不会
展开Biu

$30$我根本就不会

[查看全文]
查看更多
hcl
【书籍】计算机代数系统(CAS)的数学原理【pdf】

本帖最后由 fanghy12345 于 2011-8-29 14:55 编辑

关于计算机代数系统的详细介绍

小悦子
我还是要学数学的
展开Biu

我还是要学数学的@13*

[查看全文]
punkie
貌似挺有趣
展开Biu

貌似挺有趣0.0

[查看全文]
hcl
三大数学软件介绍与下载一:Mathematica

Mathematica是一款科学计算软件,很好地结合了数值和符号计算引擎、图形系统、编程语言、文本系统、和与其他应用程序的高级连接。很多功能在相应领域内处于世界领先地位,截至2009年,它也是为止使用最广泛的数学软件之一。Mathematica的发布标志着现代科技计算的开始。自从20世纪60年代以来,在数值、代数、图形、和其它方面应用广泛,Mathematica是世界上通用计算系统中最强大的系统。自从1988发布以来,它已经对如何在科技和其它领域运用计算机产生了深刻的影响。人们常说,Mathematica的发布标志着现代科技计算的开始。自从上世纪六十年代以来,在数值、代数、图形、和其它方面一直有个别的软件包存在。但是,Mathematica的基本概念是用一个连贯的和统一的方法创造一个能适用于科技计算各个方面的软件系统。实现这一点的关键之处是发明了一种新的计算机符号语言。这种语言能仅仅用很少量的基本元素制造出广泛的物体,满足科技计算的广泛性。这在人类历史上还是第一次。

当Mathematica1.0版发布时,《纽约时代报》写道:“这个软件的重要性不可忽视”;紧跟着《商业周刊》又将Mathematica评比为当年十大最重要产品。在科技界,Mathematica被形容为智能和实践的**。

7.0下载:http://www.verycd.com/topics/2723177/

云端汉化版:http://www.verycd.com/topics/2792415/

geohuimin
表示还未受启蒙
展开Biu

@xyy#表示还未受启蒙 收了 长下见识

[查看全文]
LittLe
学过用过考过现在差不多忘了
展开Biu

学过用过考过现在差不多忘了。。。+322+

[查看全文]
挨T虫穴
数学大爱路过
展开Biu

@106#数学大爱路过

[查看全文]
hcl
三大软件不是
展开Biu

blue孑孓 发表于 2011-7-30 17:19

三大软件不是 为啥只有一个介绍

之一,后面的还在整理

[查看全文]
blue孑孓
三大软件不是
展开Biu

三大软件不是 为啥只有一个介绍

[查看全文]
小悦子
你难道就是技术宅
展开Biu

hcl 发表于 2011-7-30 12:07

ZW

你难道就是技术宅,死宅膜拜下#1791#

[查看全文]
小悦子
来支持下
展开Biu

hcl 发表于 2011-7-30 12:07

ZW

来支持下[都灌了这么多水]~262~

[查看全文]
hcl
查看更多
轻舟过
正态分布的前世今生(上)

正态分布的前世今生(上)

rickjin (靳志辉“Ÿ)

关键词: 正态分布, 统计学, 高斯, 最小二乘法

神说,要有正态分布,就有了正态分布。

神看正态分布是好的,就让随机误差就服从了正态分布。

创世纪-数理统计

一、正态分布,熟悉的陌生人

学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅,其密度函数写成数学表达式

$\dfrac{1}{\sqrt{2 \pi}{\sigma}} \mathrm{exp} \left(- \dfrac{(x - \mu)^2}{2 \sigma^2} \right)$

也非常具有数学的美感。其标准化后的概率密度函数

$\dfrac{1}{\sqrt{2 \pi}} \mathrm{exp} \left(- \dfrac{x^2}{2}\right)$

更加的简洁漂亮,两个最重要的数学常量$\pi,e$都出现在了公式之中。在我个人的审美之中,它也属于top-N的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。

正态分布曲线

正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。早年去过德国的兄弟们还会发现,德国的钢镚和10马克的纸币上都留有高斯的头像和正态密度曲线。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。

德国马克上的高斯头像和正态分布曲线

正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我们在本科学习数理统计的时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。直到我读研究生的时候,我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。

正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。

二、邂逅,正态曲线的首次发现

第一个故事和概率论的发展密切相关,主角是棣莫弗(De Moivre)和拉普拉斯(Laplace)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理

$(\cos \theta + i\sin \theta)^n = \cos(n \theta) + i\sin(n \theta)$.

古典概率论发源于赌博,惠更斯帕斯卡费马贝努利都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望(Expectation),就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。

棣莫弗(De Moivre)拉普拉斯 (Laplace)

有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B两人在赌场里赌博,A,B各自的获胜概率是$p$和$q = 1 -p$,赌$n$局,若A赢的局数$X>np$,则A付给赌场$X - np$元,否则B付给赌场$np - X$元。问赌场挣钱的期望值是多少?

问题并不复杂,本质上是一个二项分布,最后求出的理论结果是

$$2npqb(n,p,np),$$

其中 $$b(n,p,i)=\left(\begin{array}{c}n \\ i \end{array}\right)p^iq^{n-i}$$ 是常见的二项概率。但是对具体的$n$,要把这个理论结果实际计算出数值结果可不是件容易的事,因为其中的二项公式中有组合数.这就驱动棣莫弗寻找近似计算的方法。

与此相关联的另一个问题,是遵从二项分布的随机变量$X \sim B(n,p)$,问$X$落在二项分布中心点一定范围的概率$P_d = P(|X - np| \leq d)$是多少?

对于$p=\frac{1}{2}$的情形,棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,幸运的是棣莫弗和斯特林(Stirling)处在同一个时代,而且二人之间有联系,斯特林公式是在数学分析中必学的一个重要公式:(事实上斯特林公式的形式其实是棣莫弗最先发现的,但是斯特林改进了这个公式,改进的结果为棣莫弗所用)

$$n! \sim \sqrt{2 \pi n} \left(\dfrac{n}{e}\right)^n$$

1733年,棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。考虑$n$是偶数的情形,令二项概率

$$b(i) = b\left(n,\dfrac{1}{2},i\right) = \left(\begin{array}{c}n \\i \end{array}\right) \left( \dfrac{1}{2} \right)^n$$

通过斯特林公式做一些简单的计算容易得到,

$$b\left(\dfrac{n}{2} \right) \sim \sqrt{ \dfrac{2}{ \pi n}} ~ \Rightarrow ~ \dfrac{b \left( \frac{n}{2} + d \right)}{b \left(\frac{n}{2} \right)} \sim \mathrm{exp}\left(-\dfrac{2d^2}{n}\right).$$

于是有

$$b\left(\dfrac{n}{2} + d \right) \sim \dfrac{2}{\sqrt{2 \pi n}} \mathrm{exp} \left(-\dfrac{2d^2}{n}\right).$$

使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到

$\begin{eqnarray} \begin{array}{rcl} \displaystyle ~~ P\left(\left|\dfrac{X}{n} - \dfrac{1}{2}\right| \le \frac{c}{\sqrt{n}}\right) & = & \displaystyle \sum_{-c\sqrt{n} \le i \le c\sqrt{n}}b\left(\frac{n}{2}+i\right)\\ &~\sim~& \displaystyle \sum_{-c\sqrt{n} \le i \le c\sqrt{n}} \frac{2}{\sqrt{2 \pi n}}\mathrm{exp}\left(-\frac{2i^2}{n}\right) ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(1) \\ &~=~& \displaystyle \sum_{-2c \le \frac{2i}{\sqrt{n}} \le 2c} \frac{1}{\sqrt{2 \pi}}\mathrm{exp}\left(-\frac{1}{2}\left(\frac{2i}{\sqrt{n}}\right)^2\right) \frac{2}{\sqrt{n}}\\ &~\sim~& \displaystyle \int_{-2c}^{2c} \frac{1}{\sqrt{2\pi}} \mathrm{exp}\left(\dfrac{-x^2}{2} \right) dx. \end{array} \end{eqnarray}$

看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本上学到的二项分布的极限分布是正态分布。

以上只是讨论了$p=\dfrac{1}{2}$的情形,棣莫弗也对$p \ne \dfrac{1}{2}$做了一些计算,后来拉普拉斯对$p \ne \dfrac{1}{2}$的情况做了更多的分析,并把二项分布的正态近似推广到了任意$p$的情况。这是第一次正态密度函数被数学家勾画出来,而且是以二项分布的极限分布的形式被推导出来的。熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理

[De Moivre-Laplace中心极限定理] 设随机变量$X_n(n = 1,2...)$服从参数为$p$的二项分布,则对任意的$x$,恒有

$$\displaystyle\lim_{n \rightarrow \infty} P \left\{\dfrac{X_n - X_p}{\sqrt{np(1 - p)}} \leq x \right\} = \displaystyle\int^{x}_{- \infty} \dfrac{1}{\sqrt{2 \pi}} \mathrm{exp}\left( \frac{-t^2}{2} \right)dt.$$

我们在大学学习数理统计的时候,学习的过程都是先学习正态分布,然后才学习中心极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上很漂亮,但是容易困惑数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计学简史》之后,我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说:“科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。”

棣莫弗给出他的发现后40年(大约是1770),拉普拉斯建立了中心极限定理较一般的形式,中心极限定理随后又被其它数学家们推广到了其它任意分布的情形,而不限于二项分布。后续的统计学家发现,一系列的重要统计量,在样本量N趋于无穷的时候,其极限分布都有正态的形式,这构成了数理统计学中大样本理论的基础。

棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗不是个统计学家,从未从统计学的角度去考虑其工作的意义。正态分布(当时也没有被命名为正态分布)在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。这也就是正态分布最终没有被冠名棣莫弗分布的重要原因。那高斯做了啥了不起的工作导致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。

三、最小二乘法,数据分析的瑞士军刀

第二个故事的主角是欧拉(Euler),拉普拉斯(Lapalace),勒让德(Legendre)和高斯(Gauss),故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下:

  • 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
  • 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。
  • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算;十七、十八世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法。虽然缺乏理论上的论证,也不断的受到一些人的质疑,取平均作为一种异常直观的方式,已经被使用了千百年,在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好的数据处理方法。

勒让德(Legendre)

以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些问题都可以用如下数学模型描述:我们想估计的量是$\beta_0,\cdots,\beta_p$,另有若干个可以测量的量$x_1, \cdots, x_p, y$,这些量之间有线性关系

$$y = \beta_0 + \beta_1x_1 + \cdots + \beta_p x_p $$

如何通过多组观测数据求解出参数$\beta_0,\cdots,\beta_p$呢?欧拉和拉普拉斯采用的都是求解线性方程组的方法。

$\begin{eqnarray} \left\{ \begin{array}{lll} y_1 = \beta_0 + \beta_1x_{11} + \beta_2x_{21} + \cdots + \beta_px_{p1} \\ y_2 = \beta_0 + \beta_1x_{12} + \beta_2x_{22} + \cdots + \beta_px_{p2} ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(2) \\ ~~~~~~~~~~~~~~~~~~~~\vdots \\ y_n = \beta_0 + \beta_1x_{1n} + \beta_2x_{2n} + \cdots + \beta_px_{pn} \end{array} \right. \end{eqnarray}$

但是面临的一个问题是,有$n$组观测数据,$p + 1$个变量,如果$n > p + 1$,则得到的线性矛盾方程组,无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把$n$个线性方程分为$p+1$组,然后把每个组内的方程线性求和后归并为一个方程,从而就把$n$个方程的方程组化为$p+1$个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。

以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为

$累积误差 = \sum( 观测值 - 理论值 )^2$

我们求解出导致累积误差最小的参数即可。

$\begin{eqnarray} \label{least-square-error} \begin{array}{lll} \hat{\beta}& = & \displaystyle \mathrm{arg}\displaystyle \min _{\beta} \sum_{i=1}^n e_i^2 \\ & = & \displaystyle \mathrm{arg}\displaystyle \min _{\beta} \sum_{i=1}^n [y_i - (\beta_0 + \beta_1x_{1i} + \cdots + \beta_px_{pi})]^2 \end{array} ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(3) \end{eqnarray}$

勒让德在论文中对最小二乘法的优良性做了几点说明:

  • 最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位
  • 计算中只要求偏导后求解线性方程组,计算过程明确便捷
  • 最小二乘可以导出算术平均值作为估计值

对于最后一点,推理如下:假设真值为$\theta,x_1,\cdots, x_n$为n次测量值,每次测量的误差为$ e_i = x_i - \theta $,按最小二乘法,误差累积为

$L(\theta) = \displaystyle\sum_{i=1}^n e_i^2 = \displaystyle\sum_{i=1}^n (x_i - \theta)^2$

求解$\theta$使得$L(\theta)$达到最小,正好是算术平均

$\bar{x} = \dfrac{1}{n}\displaystyle\sum_{i=1}^n x_i$.

由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。

最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确地预测了谷神星的位置。

扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不但独自地给出了造刀的方法,而且把最小二乘这把刀的刀刃造得无比锋利,把最小二乘打造为了一把瑞士军刀。

高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。那高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘这把瑞士军刀的呢?

四、众里寻她千百度,误差分布曲线的确立

第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容寻找随机误差分布的规律。

天文学是第一个被测量误差困扰的学科,从古代至十八世纪天文学一直是应用数学最发达的领域,到十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差服应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?

伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

  • 误差是对称分布的;
  • 大的误差出现频率低,小的误差出现频率高。

用数学的语言描述,也就是说误差分布函数$f(x)$关于0对称分布,概率密度随$|x|$增加而减小,这两个定性的描述都很符合常识。

许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。设真值为$\theta$,而$x_1, \cdots, x_n$为$n$次测量值,每次测量的误差为$e_i = x_i - \theta$,若用算术平均$\bar{x} = ( \sum_{i=1}^n x_i)/n$去估计$\theta$,其误差为$\bar{e} = (\sum_{i=1}^n e_i)/n$。Simpson证明了,对于如下的一个概率分布,

Simpson的误差态分布曲线

有下面的估计:

$P(|\bar{e}| < x) \ge P(|e_1| < x)$.

也就是说,$|\bar{e}|$相比于$|e_1|$取小值的机会更大。辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。

在1772-1774年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。拉普拉斯假定误差分布函数$f(x)$满足如下性质

$-f'(x) = mf(x)$.

由此最终求得的分布函数为

$f(x) = \dfrac{m}{2} e^{-m|x|}$

这个概率密度函数现在被称为拉普拉斯分布。

Laplace的误差态分布曲线

以这个函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即$1/2$分位点,作为参数估计值。可是基于这个误差分布函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果。

拉普拉斯可是概率论的大牛,写过两本极有影响力的《概率分析理论》,不过以我的数学审美,实在无法理解拉普拉斯这样的大牛怎么找了一个零点不可导的误差的分布函数,拉普拉斯最终还是没能搞定误差分布的问题。

现在轮到高斯登场了,高斯在数学史中的地位极高,号称数学史上的狐狸,数学家阿贝尔对他的评论是“他像狐狸一样,用其尾巴把其在沙滩上的踪迹清除掉”(He is like the fox, who effaces his tracks in the sand with his tail.)我们的数学大师陈省身把黎曼和庞加莱(Henri Poincaré)称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。在数学家中既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见,高斯是数学家中少有的顶“天”立“地”的人物,他既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。在误差分布的处理中,高斯以极其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。

高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。

设真值为$\theta$,而$x_1, \cdots, x_n$为$n$次独立测量值,每次测量的误差为$e_i = x_i - \theta$,假设误差$e_i$的密度函数为$f(e)$,则测量值的联合概率为$n$个误差的联合概率,记为

$\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta). ~~~~~~~~~~~~~~~~~~~~~~~~(4) \end{equation}$

但是高斯不采用贝叶斯的推理方式,而是直接取$L(\theta)$达到最小值的$\hat{\theta}=\hat{\theta}(x_1,\cdots,x_n)$作为$\theta$的估计值,即

$\hat{\theta}= \mathrm{arg}\displaystyle \min _{\theta} L(\theta)$.

现在我们把$L(\theta)$称为样本的似然函数,而得到的估计值$ \hat{\theta}$称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。

高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:

误差分布导出的极大似然估计 = 算术平均值.

然后高斯去找误差密度函数$f$以迎合这一点。即寻找这样的概率分布函数$f$,使得极大似然估计正好是算术平均$\hat{\theta} = \bar{x}$。通过应用数学技巧求解这个函数$f$,高斯证明(证明不难,后续给出)了所有的概率密度函数中,唯一满足这个性质的就是

$\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma} \mathrm{exp}\left(-\frac{x^2}{2\sigma^2}\right)$.

瞧,正态分布的密度函数$N(0, \sigma^2)$被高斯他老人家给解出来了!

进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差$e_i$(见前面的公式(3),有$e_i \sim N(0, \sigma^2)$,则$(e_1, \cdots, e_n)$的联合概率分布为

$\displaystyle (e_1, \cdots, e_n) \sim \frac{1}{(\sqrt{2\pi}\sigma)^n}\mathrm{exp}\left(-\frac{1}{2\sigma^2} \sum_{i=1}^n e_i^2 \right)$.

要使得这个概率最大,必须使得$\sum_{i=1}^n e_i^2$取最小值,这正好就是最小二乘法的要求。

高斯所拓展的最小二乘法成为了十九世纪统计学的最重要成就,它在十九世纪统计学的重要性就相当于十八世纪的微积分之于数学。而勒让德和最小二乘的的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。估计高斯本人当时是完全没有意识到他的这个工作给现代数理统计学带来的深刻影响。高斯在数学上的贡献特多,去世前他要求给自己的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规作图上的杰出工作。而后世的德国钞票和钢镚上是以正态密度曲线来纪念高斯,这足以说明高斯的这项工作在当代科学发展中的份量。

十七、十八世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发进行逻辑推导。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?

高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正态分布既可以从抛钢镚产生的序列求和中生成出来,又可以被优雅地作为误差分布定律,这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理所当然是高斯分布。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此有了这个解释为出发点,高斯的循环论证的圈子就可以打破。估计拉普拉斯悟出这个结论之后一定想撞墙,自己辛辛苦苦寻寻觅觅了这么久的误差分布曲线就在自己的眼皮底下,自己却长年来视而不见,被高斯给占了先机。

至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位,并在整个19世纪不断地开疆扩土,直至在统计学中鹤立鸡群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,为现代统计学的发展开启了一扇大门。

在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。正态分布被人们发现有这么好的性质,各国人民都争抢它的冠名权。因为拉普拉斯是法国人,所以当时在法国被称为拉普拉斯分布;而高斯是德国人,所以在德国叫做高斯分布;中立国的人称它为拉普拉斯-高斯分布。后来法国的大数学家庞加莱建议改用正态分布这一中立名称,而随后统计学家卡尔•皮尔森使得这个名称被广泛接受:

    Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another "abnormal".

-Karl Pearson(1920)

不过因为高斯在数学家中的名气实在是太大,正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布,两者并用。

正态分布在高斯的推动下,迅速在测量误差分析中被广泛使用,然而早期也仅限于测量误差的分析中,其重要性远没有被自然科学和社会科学领域中的学者们所认识,那正态分布是如何从测量误差分析的小溪,冲向自然科学和社会科学的汪洋大海的呢?

五、曲径通幽处,禅房花木深

在介绍正态分布的后续发展之前,我们来多讲一点数学,也许有些人会觉得枯燥,不过高斯曾经说过:“数学是上帝的语言”。所以要想更加深入地理解正态分布的美,唯有通过上帝的语言。

造物主造物的准则往往是简单明了的,只是在纷繁芜杂的万物之中,我们要发现并领会它并非易事。之前提到过,十七、十八世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发作为科学探求的起点;而后来的数学家和物理学家们的研究发现,屡次从一些给定的简单的准则出发,我们总是被引领到了正态分布的家门口,这让人感觉到正态分布的美妙。

达尔文的表弟高尔顿是生物学家兼统计学家,他对正态分布非常的推崇与赞美:“我几乎不曾见过像误差呈正态分布这么激发人们无穷想象的宇宙秩序”。当代两位伟大的概率学家Levy和Kac都曾经说过,正态分布是他们切入概率论的初恋情人,具有无穷的魅力。如果古希腊人知道正态分布,想必奥林匹斯山的神殿里会多出一个正态女神,由她来掌管世间的混沌。

要拉下正态分布的神秘面纱展现她的美丽,需要高深的概率论知识,本人在数学方面知识浅薄,不能胜任。只能在极为有限的范围内尝试掀开她的面纱的一角。棣莫弗和拉普拉斯以抛钢镚的序列求和为出发点,沿着一条小径第一次把我们领到了正态分布的家门口,这条路叫做中心极限定理。而这条路上风景秀丽,许多概率学家都为之倾倒。这条路在20世纪被概率学家门越拓越宽,成为了通往正态曲线的一条康庄大道。而数学家和物理学家们发现:条条小路通正态。著名的物理学家E.T.Jaynes在他的名著《Probability Theory:the Logic of Science》(中文译书《概率论沉思录》)中,描绘了四条通往正态分布的小径;曲径通幽处,禅房花木深,让我们一起来欣赏一下四条小径上的风景吧。

1. 高斯的推导(1809)

第一条小径是高斯找到的,高斯以如下准则作为小径的出发点

误差分布导出的极大似然估计 = 算术平均值

设真值为$\theta$,而$x_1, \cdots, x_n$为$n$次独立测量值,每次测量的误差为$e_i = x_i - \theta$,假设误差$e_i$的密度函数为$f(e)$,则测量值的联合概率为$n$个误差的联合概率,记为

$\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta) ~~~~~~~~~~~~~~~~~~~~~~~~(5) \end{equation}$

为求极大似然估计,令

$\dfrac{d \log L(\theta)}{d \theta} = 0$.

整理后可以得到

$\displaystyle\sum_{i=1}^n \dfrac{f'(x_i-\theta)}{f(x_i-\theta)} = 0$.

令$g(x) = f'(x)/f(x)$,由上式可以得到

$ \displaystyle\sum_{i=1}^n g(x_i-\theta) = 0$.

由于高斯假设极大似然估计的解就是算术平均$\bar{x}$,把解带入上式,可以得到

$\begin{equation} \label{gauss-derivation} ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ \displaystyle\sum_{i=1}^n g(x_i-\bar{x}) = 0. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(6) \end{equation}$

在上式中取$n=2$,有

$g(x_1-\bar{x}) + g(x_2-\bar{x}) = 0$.

由于此时有$x_1-\bar{x} = -(x_2-\bar{x})$,并且$x_1, x_2$是任意的,由此得到:$g(-x) = -g(x)$.再在(6)式中取$n=m+1$,并且要求$x_1=\cdots=x_m=-x$,且$x_{m+1} = mx$,则有$\bar{x} = 0$,并且

$\displaystyle\sum_{i=1}^n g(x_i-\bar{x}) = mg(-x) + g(mx)$.

所以得到$g(mx) = mg(x)$.而满足上式的唯一的连续函数就是$g(x)=cx$,从而进一步可以求解出

$f(x) = Me^{cx^2}$.

由于$f(x)$是概率分布函数,把$f(x)$正规化一下就得到正态分布密度函数$N(0,\sigma^2)$.

2. Herschel(1850)和麦克斯韦(1860)的推导

第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年,天文学家Herschel在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布$f(x,y)$,Herschel设置了两个准则:

  • x轴和y轴的误差是相互独立的,即误差的概率在正交的方向上相互独立;
  • 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系。

这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1,可以得到$f(x,y)$应该具有如下形式

$f(x,y) = f(x) \cdot f(y)$.

把这个函数转换为极坐标,在极坐标下的概率密度函数设为$g(r,\theta)$,有

$f(x,y) = f(r\cos\theta, r\sin\theta) = g(r,\theta)$

由准则2,$g(r,\theta)$具有旋转对称性,也就是应该和$\theta$无关,所以$g(r,\theta)=g(r)$,综合以上,我们可以得到

$f(x)f(y) = g(r) = g(\sqrt{x^2+y^2})$.

取$y=0$,得到$g(x) = f(x)f(0)$,所以上式可以转换为

$\log[\dfrac{f(x)}{f(0)}] + \log[\dfrac{f(y)}{f(0)}] = \log[\dfrac{f(\sqrt{x^2+y^2})}{f(0)}]$.

令$\log \left(f(x)/f(0)\right) = h(x)$,则有

$h(x) + h(y) = h(\sqrt{x^2+y^2})$.

从这个函数方程中可以解出$h(x) = ax^2$,从而可以得到$f(x)$的一般形式如下

$f(x) = \sqrt{\dfrac{\alpha}{\pi}} e^{-\alpha x^2}$

而$f(x)$就是正态分布$N(0, 1/\sqrt{2\alpha)}$,而$f(x,y)$就是标准二维正态分布函数。

$f(x,y) = \dfrac{\alpha}{\pi} \exp \left(-\alpha (x^2+y^2)\right)$.

1860年,我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布$\rho(v_x,v_y,v_z) \propto \exp(-\alpha(v_x^2+v_y^2+v_z^2))$。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗?

$\begin{array}{lll} ~~~~~~~~~~~~~~F(v) & = & \displaystyle \left(\frac{m}{2\pi kT}\right)^{3/2} \exp \left(-\frac{mv^2}{2kT}\right) \\ & = & \displaystyle \left(\frac{m}{2\pi kT}\right)^{1/2} \exp \left(-\frac{mv_x^2}{2kT}\right) \cdot \left(\frac{m}{2\pi kT}\right)^{1/2} \exp \left(-\frac{mv_y^2}{2kT}\right) \cdot\left(\frac{m}{2\pi kT}\right)^{1/2} \exp \left(-\frac{mv_z^2}{2kT}\right) ~~~~~~~~~~~~~~~~~~~(7) \end{array}$

所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布?反正我是一直不知道,直到今年才明白。

Herschel-Maxwell推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有$\pi$的数学公式的时候,就会问:圆在哪里?这个推导中使用到了$x^2+y^2$,也就是告诉我们正态分布密度公式中有个$\pi$,其根源来在于二维正态分布中的等高线恰好是个圆。

3. Landon的推导(1941)

第三条道是一位电气工程师,Vernon D. Landon 给出的。1941年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差$\sigma^2$来刻画。因此他推理认为噪声电压的分布函数形式是$p(x;\sigma^2)$。现在假设有一个相对于$\sigma$而言很微小的误差扰动$e$,且$e$的分布函数是$q(e)$,那么新的噪声电压是$x' = x + e$。Landon提出了如下的准则

  • 随机噪声具有稳定的分布模式
  • 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量)

用数学的语言描述:如果

$x \sim p(x;\sigma^2), ~~~ e\sim q(e), ~~~ x'= x+e$,

则有$x' \sim p(x;\sigma^2 + var(e))$.现在我们来推导函数$p(x;\sigma^2)$应该长成啥样。按照两个随机变量和的分布的计算方式,$x'$的分布函数将是$x$的分布函数和$e$的分布函数的卷积,即有

$\displaystyle f(x') = \int p(x'-e; \sigma^2)q(e)de$.

把$p(x'-e; \sigma^2)$在$x'$处做泰勒级数展开(为了方便,展开后把自变量由$x'$替换为$x$),上式可以展开为

$\displaystyle f(x) = p(x; \sigma^2) - \frac{\partial p(x; \sigma^2)}{\partial x} \int eq(e)de +\frac{1}{2} \frac{\partial^2 p(x; \sigma^2)}{\partial x^2} \int e^2q(e)de + \cdots$

记$p=p(x; \sigma^2)$,则有

$\displaystyle f(x) = p - \frac{\partial p}{\partial x} \bar{e} +\frac{1}{2} \frac{\partial^2 p}{\partial x^2}\bar{e^2} + o(\bar{e^2})$

对于微小的随机扰动$e$,我们认为他取正值或者负值是对称的,所以$\bar{e}= 0$。所以有

$\begin{equation} \label{landon-x} f(x) = p + \dfrac{1}{2} \dfrac{\partial^2 p}{\partial x^2}\bar{e^2} + o(\bar{e^2}) ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(8)\end{equation}$

对于新的噪声电压是$x' = x + e$,方差由$\sigma^2$增加为$\sigma^2 + var(e) = \sigma^2 + \bar{e^2}$,所以按照Landon的分布函数模式不变的假设,新的噪声电压的分布函数应该为$f(x) = p(x; \sigma^2 + \bar{e^2})$。把$p(x; \sigma^2 + \bar{e^2})$在$\sigma^2$处做泰勒级数展开,得到

$\begin{equation} \label{landon-sigma} \displaystyle f(x) = p + \frac{\partial p}{\partial \sigma^2}\bar{e^2} + o(\bar{e^2}). ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(9)\end{equation}$

比较(8)和(9)这两个式子,可以得到如下偏微分方程

$\displaystyle \frac{1}{2} \frac{\partial^2 p}{\partial x^2} = \frac{\partial p}{\partial \sigma^2}$.

而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到

$p(x; \sigma^2) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp \left(-\dfrac{x^2}{2\sigma^2}\right)$

又一次,我们推导出了正态分布!

E.T.Jaynes对于这个推导的评价很高,认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本,相比于中心极限定理来说,是一次性累加所有的因素,Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声$q(e)$是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。

4. 正态分布和最大熵

还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,我不确认这条道的发现者是否是Jaynes本人。

熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。

对于一个概率分布$p(x)$,我们定义它的熵为

$H(p) = - \displaystyle\int p(e)\log p(e) de$.

如果给定一个分布函数$p(x)$的均值$\mu$和方差$\sigma^2$(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最大的概率分布$p(x|\mu, \sigma^2)$就是正态分布$N(\mu, \sigma^2)$。

这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。

考虑两个概率分布$p(x)$和$q(x)$,使用不等式$\log x \le x-1$,得

$ \displaystyle\int p(x) \log \frac{q(x)}{p(x)} dx \le \displaystyle\int p(x) (\frac{q(x)}{p(x)} - 1) dx = \displaystyle\int q(x) dx - \displaystyle\int p(x) dx = 0 $.

于是

$ \displaystyle\int p(x) \log \frac{q(x)}{p(x)} dx = \displaystyle\int p(x) \frac{1}{p(x)}dx + \displaystyle\int p(x) \log q(x) dx \le 0 $;

所以

$~~~~~~~~~~~~~~H(p) \le -\displaystyle\int p(x) \log q(x) dx ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(10)$

熟悉信息论的读者都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号只有取$q(x)=p(x)$。

对于$p(x)$,在给定的均值$\mu$和方差$\sigma^2$下,我们取$q(x)=N(\mu,\sigma^2)$,则可以得到

$\begin{eqnarray} \begin{array}{lll} H(p) & \le & - \displaystyle\int p(x) \log \left(\frac{1}{\sqrt{2\pi}\sigma}\exp \left(-\frac{{(x-\mu})^2}{2\sigma^2}\right)\right) dx \\ & = & \displaystyle \int p(x) \left( \frac{(x-\mu)^2}{2\sigma^2} + \log \sqrt{2\pi}\sigma \right) dx ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(11)\\ & = & \displaystyle \frac{1}{2\sigma^2} \int p(x)(x-\mu)^2 dx + \log \sqrt{2\pi}\sigma. \end{array} \end{eqnarray}$

由于$p(x)$的均值方差有如下限制:$\displaystyle\int p(x) (x-\mu)^2 dx = \sigma^2$,于是

$H(p) \le \dfrac{1}{2\sigma^2}\sigma^2 + \log \sqrt{2\pi}\sigma = \dfrac{1}{2} + \log \sqrt{2\pi}\sigma $

而当$p(x)=N(\mu, \sigma^2)$的时候,上式可以取到等号,这就证明了结论。

E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。

好的,风景欣赏暂时告一段落。所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:

    Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.

—Henri Poincaré

原文链接:http://www.52nlp.cn/tag/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83%E7%9A%84%E5%89% 8D%E4%B8%96%E4%BB%8A%E7%94%9F
作 者:rickjin(靳志辉“Ÿ)
校 对:汤涛,香港浸会大学数学讲座教授