样本数目足够多的情况下，样本均值会趋于期望。

样本数目足够多的情况下，事件发生的频率趋于概率。

为何两种说法都称为大数定律，样本均值与频率又到底是什么关系呢？

马尔可夫不等式 (The Markov Inequality)

Markov Inequality描述了一个非常简单的想法：如果随机变量恒大于零，且该随机变量的期望较小，那么我们随机做一次实验，所得到的$X$也不太可能会很大。举个例子，如果全国十四亿人口的平均身高为1.67米，那么我们随机抽一个人，他/她的身高不会偏离这个数字太远，他/她的身高为2米的概率是比较低的。

$P(X\geq a)$: 随机变量$X$不小于$a$ 的概率

$E[X]$: 随机变量$X$的期望

$a$: 任一正数

\[P(X\geq a) \leq \frac{E[X]}{a}\]

$Proof\ 1$:

\[\begin{align*} E[X] &= \int^{\infty}_{-\infty} xf(x)dx\\ &\geq \int^{\infty}_{a} xf(x)dx \\ &\geq \int^{\infty}_{a} af(x)dx \\ &= aP(X\geq a) \\ \\ P(X\geq a) &\leq \frac{E[x]}{a} \end{align*}\]

除此之外，还有一种证明方法，但两者的内在思想是一样的，也在此简述一下。

$Proof\ 2$:

假设我们有另外一个随机变量$Y$，如下：

\[\begin{equation*} Y=\left\{ \begin{aligned} a, &\quad X\geq a\\ 0, &\quad X<a \end{aligned} \right. \end{equation*}\]

显然这是一个离散型随机变量，那么我们可以用以下公式计算出它的期望：

\[\begin{align*} E[Y] &= aP(X\geq a) + 0\cdot P(X<a)\\ &= aP(X\geq a) \end{align*}\]

因为当$X\geq a$时，$Y=a$，而当$X<a$时，$Y = 0$。所以很显然可以得到：$Y\leq X$。那么也就有$E[Y] \leq E[X]$。则：

\[\begin{align*} E[Y] = aP(&X\geq a) \leq E[X] \\ \\P(X\geq a) & \leq \frac{E[X]}{a} \end{align*}\]

可是稍微往深处想一想，就会觉得这个不等式非常鸡肋。从不等式上来看，随机变量大于或等于$k$倍期望的概率不超过$\frac{1}{k}$。这样说或许还不直观，我们再举回那个身高的例子，全国十四亿人口的平均身高为1.67米。这个不等式告诉我们，如果随机抽一个人，他/她的身高不小于3.34米的概率不超过$1/2$……

根据我们的常识，这个概率何止是不超过$1/2$，说是远小于1%也不为过。这其实就是这个Markov Inequality的一个缺点——它的上界定得太大了。

切比雪夫不等式 (The Chebyshev Inequality)

Chebyshev Inequality把方差也考虑了进来。这个不等式阐述的想法就是：如果一个随机变量的方差不大，那么这个随机变量不会离它的均值太远。不等式的形式如下：

\[\begin{align*} P(|X-\mu|\geq c)\leq \frac{\sigma^2}{c^2} \end{align*}\]

同样地，我们来证明一下这个不等式。

首先，绝对值这个东西有点碍眼，它的存在往往意味着分类讨论，我们可以先把它去掉，两边同时进行平方运算。

\[\begin{align*} P(|X-\mu|\geq c) = P((X-\mu)^2\geq c^2) \end{align*}\]

然后，把$(X-\mu)^2$看作一个新的随机变量，利用Markov Inequality得到，

\[\begin{align*} P(|X-\mu|\geq c) = P((X-\mu)^2 \geq c^2) &\leq \frac{E[(X-\mu)^2]}{c^2} = \frac{\sigma^2}{c^2} \end{align*}\]

证毕。

假设平均身高为167$cm$，方差为100$cm^2$，那么抽到一个人身高大于或等于3.34米的概率会小于或等于0.0035。这样看倒也科学不少。

弱大数定律 (Weak Law of Large Numbers, WLLN)

证明

接着我们来看一下这篇文章真正的主角——大数定律。更准确地说，是弱大数定律，也称为辛钦大数定律。至于强大数定律，会在这篇blog的结尾提一嘴，它的证明有点超出我的知识范畴了，我也就偷个懒吧。

先给出来大数定律的形式：

对于任意$\epsilon > 0$:

\[\begin{align*} P(|M_n-\mu|\geq \epsilon) \rightarrow 0, \ as\ n \rightarrow \infty \end{align*}\]

其中：

$M_n$: 样本均值，计算公式为

\[M_n = \frac{X_1 + X_2+\cdots + X_n}{n}\]

$\mu$: 随机变量的期望

$n$: 样本数量

$X_1\cdots X_n$: 独立同分布的随机变量

接下来我们给出弱大数定律的证明：

$Proof: $

根据均值及方差的线性性 (Linearity):

\[\begin{align*} E[M_n] &= E[\frac{X_1+\cdots+X_n}{n}]\\ \\ &= \frac{E[X_1]+\cdots+E[X_n]}{n}\\ \\ &=\frac{n\mu}{n}\\ \\ &= \mu\\ \\ \\ Var(M_n) &= Var(\frac{X_1+\cdots+X_n}{n})\\ \\ &= \frac{Var(X_1) + \cdots + Var(X_n)}{n^2}\\ \\ &= \frac{n\sigma^2}{n^2}\\ \\ &= \frac{\sigma^2}{n} \end{align*}\]

根据前面提到的Chebyshev Inequality，

\[\begin{align*} P(|M_n - \mu| \geq \epsilon) &\leq \frac{Var(M_n)}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2}\\ \\ 0\leq \lim_{n \to \infty} P(|M_n - \mu| &\geq \epsilon)\leq \lim_{n \to \infty} \frac{\sigma^2}{n\epsilon^2} = 0 \end{align*}\]

根据夹逼定理，

\[\begin{align*} \lim_{n \to \infty} P(|M_n - \mu| &\geq \epsilon) = 0 \end{align*}\]

证毕。

WLLN描述的实际上就是我们在开头讲的，样本数目足够多的情况下，样本均值会趋于期望。那这个描述样本均值的定律，是怎么和频率扯上关系的呢？

大数定律与事件概率估计

我们在讨论$X_1\cdots X_n$时，实际上讨论的是某一试验的多次重复。不妨用$X_i$来表示某事件$A$是否发生，即：

\[\begin{equation} X_i = \left\{ \begin{aligned} 1, \quad &\text{if event A happens}\\ 0, \quad &\text{if event A doesn't happen} \end{aligned} \right. \end{equation}\]

那么，经过多次重复实验，得到的样本均值实际上就是事情发生的频率。

\[\begin{align*} M_n &= \frac{\sum^{n}_{i=1} X_i}{n} \\ &= \frac{\text{the number of times that event A happens}}{n}\\ &= frequency\\ \\ \mu &= 1\cdot P(A)+0\cdot (1-P(A))\\ \\ &=P(A) \end{align*}\]

所以，根据大数定律：

$\begin{align*} \lim_{n \to \infty} P(|M_n - \mu| &\geq \epsilon) = \lim_{n \to \infty}P(frequency-P(A)) = 0 \end{align*}$ 也就是说，频率趋于概率。

强大数定律

强大数定律的数学形式如下，

\[\begin{align*} P(\lim_{n \to \infty} |M_n - \mu| \geq \epsilon) &= 0 \end{align*}\]

实际上就是把极限符号给放进去了，虽然只有一点变化，但是表示的意思就更强烈了一点。

弱大数定律指的是样本均值依概率收敛于期望，而强大数定律则指出样本均值几乎处处收敛于期望。

至于再深一点的理解，笔者也并不太了解，还需深入学习。