500字范文 > 数学狂想曲（五）——概率分布（2）自相关互相关卷积

数学狂想曲（五）——概率分布（2）自相关互相关卷积

时间：2021-08-29 19:35:35

http://antkillerfarm.github.io/

概率分布（2）

上一篇《概率分布（1）》写的意犹未尽，这里继续写。本篇主要关注χ2分布、t分布和F分布，也就是统计学的三大祖师爷各自的看家本领。

χ2分布

设X1,…,Xn是来自总体N(0,1)的样本，则称统计量

χ2=X21+⋯+X2n(1)

服从自由度为n的χ2分布（chi-squared distribution），记作χ2∼χ2(n)。其PDF为：

f(x;n)=⎧⎩⎨⎪⎪⎪⎪x(n/2−1)e−x/22n/2Γ(n2),0,x>0;otherwise.

t分布

设X∼N(0,1),Y∼χ2(n)，并且X、Y独立，则称随机变量

t=XY/n−−−−√(2)

服从自由度为n的t分布（t distribution），记作t∼t(n)。其PDF为：

f(t)=Γ(n+12)nπ−−−√Γ(n2)(1+t2n)−n+12

F分布

设U∼χ2(d1),V∼χ2(d2)，并且U、V独立，则称随机变量

F=U/d1V/d2(3)

服从自由度为(d1,d2)的F分布（F distribution），记作F∼F(d1,d2)。其PDF为：

f(x;d1,d2)=(d1x)d1dd22(d1x+d2)d1+d2−−−−−−−−−√xB(d12,d22)=1B(d12,d22)(d1d2)d12xd12−1(1+d1d2x)−d1+d22

显然：

1F∼F(d2,d1)

假设检验

假设检验就是根据样本对所提出的假设H0作判断。

如果P{拒绝H0|H0为真}≤α，则接受H0。

这里的α被称作显著性水平。假设检验H0所涉及的统计量被称作检验统计量。

下表是正态总体均值、方差的检验法表格：

上面这些和χ2分布、t分布、F分布有关的假设检验，又被称作χ2检验、t检验和F检验。对均值的假设检验，被称为μ检验。

上面这些都是正态样本的参数检验。

对于非参数检验或者非正态样本检验，其他的检验方法还有Wilcoxon signed-rank test、Kruskal–Wallis test、Friedman test等。

注：Frank Wilcoxon，1892～1965，美国化学家。康奈尔大学博士。先后供职于几家美国化工企业的研究机构。
William Henry (“Bill”) Kruskal，1919～，美国数学家。哥伦比亚大学博士，芝加哥大学教授。
Milton Friedman，1912～，美国经济学家。哥伦比亚大学博士，芝加哥大学教授。1976年获诺贝尔经济学奖。芝加哥学派第二代的领军人物。
Wilson Allen Wallis，1912～1998，美国经济学家。先后就读于明尼苏达大学和芝加哥大学，但是没有博士学位。罗彻斯特大学校长。从艾森豪威尔到里根的历届共和党总统的顾问。Milton Friedman的至交。其父Wilson Dallam Wallis为美国人类学家，明尼苏达大学教授。

一元线性回归的显著性检验

假设y关于x的回归具有形式a+bx，则H0:b=0。

这里使用t检验法进行假设检验。

首先，不加证明的给出如下结论：

推论1：y¯∼N(a+bx¯,σ2/n)

推论2：b^∼N(b,σ2/Sxx)

推论3：y^0=a^+b^x0=y¯+b^(x0−x¯)∼N(a+bx0,[1n+(x0−x¯)2Sxx]σ2)

推论4：Qe/σ2∼χ2(n−2)

推论5：y¯,b^,Qe相互独立。

推论6：若y0=a+bx0+ϵ0与y1,…,yn独立，则y0,y^0,Qe相互独立。

其中，y¯表示y的均值，而y^表示y的估计值,Sxx表示方差，Qe为残差平方和∑ni=1(yi−y^i)2。

由推论4可得：

E(Qe/σ2)=n−2

即：

Qe=σ^2(n−2)(3)

由推论2和5、公式2和3，可得：

b^−bσ2/Sxx−−−−−−√/(n−2)σ^2σ2/(n−2)−−−−−−−−−−−−−−−−√∼t(n−2)

即：

b^−bσ^Sxx−−−√∼t(n−2)

当假设H0被拒绝时，认为回归效果是显著的，反之就认为回归效果不显著。

不显著的原因可能有以下几种：

1.影响y取值的，除了x，还有其他不可忽略因素。

2.y与x的关系不是线性的，存在其他的关系。

3.y与x不存在关系。

KS检验

Kolmogorov–Smirnov test用于对样本是否属于某种分布进行假设检验。

注：Andrey Nikolaevich Kolmogorov，1903～1987，二十世纪俄国最伟大的数学家之一。莫斯科州立大学博士和教授。俄罗斯科学院院士，挪威科学院和英国皇家学会外籍院士。沃尔夫奖获得者（1980年）。他在数学的许多领域都有重要贡献，以他的名字命名的理论竟有30项之多。
由于Nobel Prizes没有数学奖，因此数学界的最高奖一般有三个：
1.Fields Medal。获奖难度最高，因为有40岁的年龄限制。在国内比较知名的丘成桐、陶哲轩都是该奖的获奖者。
不过他们还不是最屌的。Grigori Perelman（Poincaré conjecture的证明者）直接拒绝了Fields Medal。除此之外，他还拒绝了EMS Prize和Millennium Prize，其中后者奖金高达100万美元，而且还不知道下一个获奖者什么时候诞生（该奖不是年度奖，而是数学难题奖，数学难题的解决周期，你懂的）。
Perelman犹如一个特立独行的隐士，谁的账都不买，包括名利。他将他的伟大证明随手扔进arXiv这样一个非正规网站，但却被《Science》评为年度科学突破。数学界已经很多年没有这样的荣誉了。
补充一下，Perelman就读的中学是Kolmogorov创建的。
2.Abel Prize。和Nobel Prizes的规则相同，由于不限年龄，水平是最高的。缺点是这个奖是2001年才创建的，影响力略差。
3.Wolf Prize。在Abel Prize创建之前，被誉为数学界的Nobel Prizes。
Nikolai Vasilyevich Smirnov，1900～1966，俄国数学家。莫斯科大学博士，斯塔克罗夫数学研究所研究员。
Vladimir Andreevich Steklov，1864～1926，俄国数学家、物理学家。哈尔科夫大学博士，其导师是圣彼得堡学派第二代人物中，仅次于Andrey Markov的Aleksandr Lyapunov。哈尔科夫大学和圣彼得堡大学教授，19创建斯塔克罗夫数学研究所。
斯塔克罗夫数学研究所是一家专职研究没有教学任务和科研任务的研究机构。Grigori Perelman在这里，曾有6年时间没有发表一篇论文。二十世纪俄罗斯绝大多数的数学发现都源自这里。

上图的红线是某随机变量假设分布的CDF，而蓝线是该随机变量样本的累积分布曲线，即ECDF（Empirical Distribution Function）。

显然若假设正确的话，两条曲线应该是基本重合的。反之，若两条曲线差异较大，则该假设检验不成立。这就是KS检验的基本原理。

KS检验的统计量定义如下：

Dn=supx|Fn(x)−F(x)|

其中sup表示最小上界，

Fn(x)=1n∑i=1nI[−∞,x](Xi)I[−∞,x](Xi)={1,0,Xi≤xotherwise

KS检验更深入的解释，涉及到布朗运动和维纳过程，这里不再赘述。