弱大数定律的推导及意义
样本数目足够多的情况下,样本均值会趋于期望。
样本数目足够多的情况下,事件发生的频率趋于概率。
为何两种说法都称为大数定律,样本均值与频率又到底是什么关系呢?
马尔可夫不等式 (The Markov Inequality)
Markov Inequality描述了一个非常简单的想法:如果随机变量恒大于零,且该随机变量的期望较小,那么我们随机做一次实验,所得到的$X$也不太可能会很大。举个例子,如果全国十四亿人口的平均身高为1.67米,那么我们随机抽一个人,他/她的身高不会偏离这个数字太远,他/她的身高为2米的概率是比较低的。
$P(X\geq a)$: 随机变量$X$不小于$a$ 的概率
$E[X]$: 随机变量$X$的期望
$a$: 任一正数
\[P(X\geq a) \leq \frac{E[X]}{a}\]$Proof\ 1$:
\[\begin{align*} E[X] &= \int^{\infty}_{-\infty} xf(x)dx\\ &\geq \int^{\infty}_{a} xf(x)dx \\ &\geq \int^{\infty}_{a} af(x)dx \\ &= aP(X\geq a) \\ \\ P(X\geq a) &\leq \frac{E[x]}{a} \end{align*}\]除此之外,还有一种证明方法,但两者的内在思想是一样的,也在此简述一下。
$Proof\ 2$:
假设我们有另外一个随机变量$Y$,如下:
\[\begin{equation*} Y=\left\{ \begin{aligned} a, &\quad X\geq a\\ 0, &\quad X<a \end{aligned} \right. \end{equation*}\]显然这是一个离散型随机变量,那么我们可以用以下公式计算出它的期望:
\[\begin{align*} E[Y] &= aP(X\geq a) + 0\cdot P(X<a)\\ &= aP(X\geq a) \end{align*}\]因为当$X\geq a$时,$Y=a$,而当$X<a$时,$Y = 0$。所以很显然可以得到:$Y\leq X$。那么也就有$E[Y] \leq E[X]$。则:
\[\begin{align*} E[Y] = aP(&X\geq a) \leq E[X] \\ \\P(X\geq a) & \leq \frac{E[X]}{a} \end{align*}\]可是稍微往深处想一想,就会觉得这个不等式非常鸡肋。从不等式上来看,随机变量大于或等于$k$倍期望的概率不超过$\frac{1}{k}$。这样说或许还不直观,我们再举回那个身高的例子,全国十四亿人口的平均身高为1.67米。这个不等式告诉我们,如果随机抽一个人,他/她的身高不小于3.34米的概率不超过$1/2$……
根据我们的常识,这个概率何止是不超过$1/2$,说是远小于1%也不为过。这其实就是这个Markov Inequality的一个缺点——它的上界定得太大了。
切比雪夫不等式 (The Chebyshev Inequality)
Chebyshev Inequality把方差也考虑了进来。这个不等式阐述的想法就是:如果一个随机变量的方差不大,那么这个随机变量不会离它的均值太远。不等式的形式如下:
\[\begin{align*} P(|X-\mu|\geq c)\leq \frac{\sigma^2}{c^2} \end{align*}\]同样地,我们来证明一下这个不等式。
首先,绝对值这个东西有点碍眼,它的存在往往意味着分类讨论,我们可以先把它去掉,两边同时进行平方运算。
\[\begin{align*} P(|X-\mu|\geq c) = P((X-\mu)^2\geq c^2) \end{align*}\]然后,把$(X-\mu)^2$看作一个新的随机变量,利用Markov Inequality得到,
\[\begin{align*} P(|X-\mu|\geq c) = P((X-\mu)^2 \geq c^2) &\leq \frac{E[(X-\mu)^2]}{c^2} = \frac{\sigma^2}{c^2} \end{align*}\]证毕。
假设平均身高为167$cm$,方差为100$cm^2$,那么抽到一个人身高大于或等于3.34米的概率会小于或等于0.0035。这样看倒也科学不少。
弱大数定律 (Weak Law of Large Numbers, WLLN)
证明
接着我们来看一下这篇文章真正的主角——大数定律。更准确地说,是弱大数定律,也称为辛钦大数定律。至于强大数定律,会在这篇blog的结尾提一嘴,它的证明有点超出我的知识范畴了,我也就偷个懒吧。
先给出来大数定律的形式:
对于任意$\epsilon > 0$:
\[\begin{align*} P(|M_n-\mu|\geq \epsilon) \rightarrow 0, \ as\ n \rightarrow \infty \end{align*}\]其中:
$M_n$: 样本均值,计算公式为
\[M_n = \frac{X_1 + X_2+\cdots + X_n}{n}\]$\mu$: 随机变量的期望
$n$: 样本数量
$X_1\cdots X_n$: 独立同分布的随机变量
接下来我们给出弱大数定律的证明:
$Proof: $
根据均值及方差的线性性 (Linearity):
\[\begin{align*} E[M_n] &= E[\frac{X_1+\cdots+X_n}{n}]\\ \\ &= \frac{E[X_1]+\cdots+E[X_n]}{n}\\ \\ &=\frac{n\mu}{n}\\ \\ &= \mu\\ \\ \\ Var(M_n) &= Var(\frac{X_1+\cdots+X_n}{n})\\ \\ &= \frac{Var(X_1) + \cdots + Var(X_n)}{n^2}\\ \\ &= \frac{n\sigma^2}{n^2}\\ \\ &= \frac{\sigma^2}{n} \end{align*}\]根据前面提到的Chebyshev Inequality,
\[\begin{align*} P(|M_n - \mu| \geq \epsilon) &\leq \frac{Var(M_n)}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2}\\ \\ 0\leq \lim_{n \to \infty} P(|M_n - \mu| &\geq \epsilon)\leq \lim_{n \to \infty} \frac{\sigma^2}{n\epsilon^2} = 0 \end{align*}\]根据夹逼定理,
\[\begin{align*} \lim_{n \to \infty} P(|M_n - \mu| &\geq \epsilon) = 0 \end{align*}\]证毕。
WLLN描述的实际上就是我们在开头讲的,样本数目足够多的情况下,样本均值会趋于期望。那这个描述样本均值的定律,是怎么和频率扯上关系的呢?
大数定律与事件概率估计
我们在讨论$X_1\cdots X_n$时,实际上讨论的是某一试验的多次重复。不妨用$X_i$来表示某事件$A$是否发生,即:
\[\begin{equation} X_i = \left\{ \begin{aligned} 1, \quad &\text{if event A happens}\\ 0, \quad &\text{if event A doesn't happen} \end{aligned} \right. \end{equation}\]那么,经过多次重复实验,得到的样本均值实际上就是事情发生的频率。
\[\begin{align*} M_n &= \frac{\sum^{n}_{i=1} X_i}{n} \\ &= \frac{\text{the number of times that event A happens}}{n}\\ &= frequency\\ \\ \mu &= 1\cdot P(A)+0\cdot (1-P(A))\\ \\ &=P(A) \end{align*}\]所以,根据大数定律:
\(\begin{align*} \lim_{n \to \infty} P(|M_n - \mu| &\geq \epsilon) = \lim_{n \to \infty}P(frequency-P(A)) = 0 \end{align*}\) 也就是说,频率趋于概率。
强大数定律
强大数定律的数学形式如下,
\[\begin{align*} P(\lim_{n \to \infty} |M_n - \mu| \geq \epsilon) &= 0 \end{align*}\]实际上就是把极限符号给放进去了,虽然只有一点变化,但是表示的意思就更强烈了一点。
弱大数定律指的是样本均值依概率收敛于期望,而强大数定律则指出样本均值几乎处处收敛于期望。
至于再深一点的理解,笔者也并不太了解,还需深入学习。