接着上一篇。

条件分布

条件期望

书上的定义有些晦涩,这里我们直接用 R-N 导数作为条件期望的定义,然后把书上的定义当作性质。

定义 设 $X$ 是 $(\Omega,\mathcal{F},P)$ 上的非负随机变量且期望存在,$\mathcal{A}\subset\mathcal{F}$ 是一个 $\sigma$-代数。定义 $\mathcal{A}$ 上的测度 $\lambda(C)=\int_C XdP$,显然 $\lambda\ll P|\mathcal{A}$. 称随机变量 $\dfrac{d\lambda}{dP|\mathcal{A}}$ 为 $X$ 对 $\mathcal{A}$ 的条件期望,记作 $\mathrm E(X|\mathcal{A})$. 对一般的随机变量 $X$,$\mathrm E(X|\mathcal{A})$ 定义为 $\mathrm E(X_+|\mathcal{A})-\mathrm E(X_-|\mathcal{A})$.

条件期望虽然记号和名字都是“期望”,但它是个随机变量。这是个很直观的定义:对 $\mathcal{A}$ 中的任意集合 $A$,$\mathrm E(X|\mathcal{A})$ 在 $A$ 上的取值就是 $X$ 在 $A$ 上进行平均,也就是忽略 $A$ 内部的差异,只考虑 $\mathcal{A}$ 中的集合之间的差异。这在数学上有“商”的感觉,正好符合 $X|\mathcal{A}$ 这种“商”的记号。

性质 $\mathrm E(X|\mathcal{A})$ 是唯一的满足以下条件的随机变量:

  • $\mathrm E(X|\mathcal{A})$ 是 $(\Omega,\mathcal{A})$ 上的可测函数,
  • $\int_C \mathrm E(X|\mathcal{A})dP=\int_C XdP,\ \forall C\in\mathcal{A}$.

定义 条件概率 $P(B|\mathcal{A})$ 定义为 $E(I_B|\mathcal{A})$.

特别地,若 $Y$ 也是随机变量,可将 $\mathrm E(X|\sigma(Y))$ 简记为 $\mathrm E(X|Y)$. 于是 $P(B|Y)=\mathrm E(I_B|Y)$.

下面我们考虑对 $Y=y$ 这样的事件定义条件概率。首先介绍一个引理,证明留做习题。

引理 设 $Y:(\Omega,\mathcal{F})\to(\Lambda,\mathcal{G})$ 可测,$Z:\Omega\to\mathbb{R}^k$。则 $Z$ 是 $(\Omega,\sigma(Y))$ 上的可测函数,当且仅当存在可测函数 $h:(\Lambda,\mathcal{G})\to \mathbb{R}^k$ 满足 $Z=h\circ Y$.

于是我们有 $\mathrm E(X|Y)=h\circ Y$. 我们称 $h(y)$ 是给定 $Y=y$ 时 $X$ 的条件期望,记作 $\mathrm E(X|Y=y)$.

条件分布

设 $X,Y$ 是随机变量,定义测度 $P_{X|Y}(\cdot|y)$ 满足 $P_{X|Y}(B|y)=P(X\in B|Y=y)$ a.s.. 它是个概率测度,称为条件分布,也记作 $P_{X|Y=y}$.

若联合分布 $f(x,y)$​ 存在,定义条件概率密度函数 $$ f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}=\frac{f(x,y)}{\int f(x,y)dx}. $$ 特别地,若 $g(x,y)$ 可测,$\mathrm E|g(X,Y)|<\infty$. 可以证明 $$ \mathrm E\left(g(X,Y)|Y\right)=\frac{\int g(x,Y)f(x,Y)dx}{\int f(x,Y)dx}. $$ 于是得到我们熟悉的形式 $$ \mathrm E(g(X,Y)|Y)=\int g(x,Y)f_{X|Y}(x|Y)dx. $$

独立性

设 $(\Omega,\mathcal{F},P)$ 为概率空间。

定义(事件的独立性) 事件族 $\mathcal{C}\subset\mathcal{F}$ 独立,当且仅当对任意有限个不同的 $A_1,\cdots,A_n\in\mathcal{C}$, $$ P(A_1\cap\cdots\cap A_n)=P(A_1)\cdots P(A_n). $$ 定义(事件族的独立性) 事件族 $\mathcal{C_i}\subset \mathcal{F},i\in\mathcal{I}$ 独立,当且仅当事件 ${A_i\in\mathcal{C_i:}i\in\mathcal{I}}$ 独立。

定义(随机变量的独立性) 随机变量 $X_1,\cdots,X_n$ 独立,当且仅当事件族 $\sigma(X_1),\cdots,\sigma(X_n)$ 独立。

同样,它和小学的定义一样。可以证明以下命题等价:

  • 随机变量 $X_1,\cdots,X_n$ 独立。
  • $\forall a_i,\ P(X_1\leq a_1,\cdots,X_n\leq a_n)=P(X_1\le a_1)\cdots P(X_n\le a_n)$.
  • (若联合分布存在)$f(x_1,\cdots,x_n)=f_1(x_1)\cdots f_n(x_n)$.

独立性可以给出关于条件期望的更好的性质:

  • 若 $X,Y$ 独立,$\mathrm E(X|Y)=\mathrm EX$.
  • 若 $(X,Y)$ 和 $Z$ 独立,$\mathrm E(X|(Y,Z))=\mathrm E(X|Y)$.

不等式

这几个不等式是测度论中的名场面,我们用它来结束这一部分。我们将介绍测度论的形式,同时给出概率论中常用的形式。以下若无特殊说明,$(\Omega, \mathcal F,\mu)$ 是个测度空间,$f,g$ 是可测函数,$X,Y$ 是随机变量。

下面的期望都可以换成条件期望。

Cauchy 不等式

对内积空间中的向量 $x$ 和 $y$,有 $$ |\langle x,y\rangle|^2\leq \langle x,x\rangle \langle y,y\rangle. $$

等号成立当且仅当 $x=\lambda y$.

积分形式: $$ \left(\int_\Omega fgd\mu\right)^2\leq\int_\Omega fd\mu\int_\Omega gd\mu. $$ 概率论中常用的形式:

  • 期望

$$ \mathrm E (XY)^2\leq \mathrm E(X^2)\mathrm E (Y^2). $$

  • 协方差

$$ \mathrm{Cov}(X,Y)^2\leq {\mathrm Var}(X){\mathrm Var}(Y). $$

Jensen 不等式

$\varphi$ 是凸函数,即 $\varphi(tx+(1-t)y)\leq t\varphi(x)+(1-t)\varphi(y)$,则 $$ \varphi\left(\int_\Omega gd\mu\right)\leq \int_\Omega \varphi \circ gd\mu. $$ 积分换成期望就变成了概率论中的形式: $$ \varphi(\mathrm E(X))\leq \mathrm E(\varphi(X)). $$

Chebyshev 不等式(Markov 不等式)

设 $(\Omega, \mathcal F,\mu)$ 是测度空间。若 $g$ 是非负非减函数,对任意实数 $t$ 有 $$ g(t)\mu({x:f(x)\ge t})\leq \int_\Omega g\circ fd\mu. $$ 令 $f=|X|$, $g(t)=\begin{cases}t,&t\ge 0\0,&t<0 \end{cases}$,可得 Markov 不等式 $$ P(|X|\ge t)\leq \frac{\mathrm E(|X|)}{t},\ \forall t>0. $$ 令 $f=|X-\mathrm E(X)|$, $g(t)=\begin{cases}t^2,&t\ge 0\0,&t<0 \end{cases}$,可得概率论形式的 Chebyshev 不等式 $$ P(|X-\mathrm E(X)|\ge t)\leq \frac{\mathrm{Var}(X)}{t^2},\ \forall t>0. $$ 若令 $t=k\sigma$,则可以理解为:与均值相差 $k$ 个标准差以上的值,数量不多于 $1/k^2$.

Holder 不等式

设 $1\leq p,q\leq\infty$,并且 $\dfrac{1}{p}+\dfrac{1}{q}=1$,有结论 $|fg|1\leq |f|p |g|q$,写成积分就是 $$ \int\Omega |fg|d\mu\leq \left(\int\Omega |f|^pd\mu\right)^\frac{1}{p}\left(\int\Omega |g|^qd\mu\right)^\frac{1}{q}. $$

注:

  • 令 $p=q=2$,立刻可得 Cauchy 不等式。所以它可以看成 Cauchy 不等式的推广。
  • 若 $p=\infty$,则 $|f|_\infty=\inf {a:\mu(f(x)>a)=0}$,称为本性上确界。
  • 右端若出现 0 乘以 $\infty$,则视作 0.

积分换成期望,有 $$ \mathrm E\left(|XY|\right)\leq \left(E|X|^p\right)^\frac{1}{p}\left(E|Y|^q\right)^\frac{1}{q}. $$

Minkovski 不等式

Minkovski 不等式是 $L^p$ 中的三角不等式。设 $1\leq p\leq\infty$,则 $|f+g|p\leq |f|p+|g|p$. 写成积分: $$ \left(\int\Omega |f+g|^p d\mu\right)^\frac{1}{p}\le \left(\int\Omega |f|^p d\mu\right)^\frac{1}{p}+\left(\int\Omega |g|^p d\mu\right)^\frac{1}{p}. $$ 期望形式: $$ \left(\mathrm E |X+Y|^p\right)^\frac{1}{p}\le \left(\mathrm E |X|^p\right)^\frac{1}{p} + \left(\mathrm E |Y|^p\right)^\frac{1}{p}. $$

Lyapunov 不等式

若 $0<s<t$,则 $$ \left(\mathrm E|X|^s\right)^\frac{1}{s}\le \left(\mathrm E|X|^t\right)^\frac{1}{t}. $$ 证明只要令 $p=t/s,q=p/(p-1)$,然后对 $|X|^s$ 和 $1$ 用 Holder 不等式即可。过程中要用到测度有限,所以对一般的测度空间这个不成立。

随机变量的极限性质

预备知识

集合序列

首先我们定义集合的上下极限。对一列集合 $A_n$,它的上确界为它们的并,下确界为他们的交,即 $$ \sup A_n=\bigcup_{n\ge 1}A_n,\quad\inf A_n=\bigcap_{n\ge 1}A_n. $$ 类似于数列的上下极限,集合序列的上下极限分别是上确界和下确界的极限,即 $$ \begin{gather} \limsup_{n\to\infty} A_n=\bigcap_{n\ge 1}\bigcup_{j\ge n}A_j,\ \liminf_{n\to\infty} A_n=\bigcup_{n\ge 1}\bigcap_{j\ge n}A_j. \end{gather} $$ 上极限中的元素可以理解为“出现在无穷多个集合中”,而下极限中的元素可以理解为“只有有限多个集合里没有它”。

定义 设 $A_n$ 是一列事件,我们称 $\omega$ 是 infinitely often 的,如果 ${\omega\in\Omega:\omega\in A_n \text{对无穷多的}n\text{成立}}$,记作 ${A_n\quad i.o.}$.

容易得知,$\omega$ 是 $A_n$ i.o. 的,等价于 $\omega\in\limsup A_n$.

Borel-Cantelli 引理

我们可以介绍著名的 Borel-Cantelli 引理了。

引理(Borel-Cantelli I) 若 $\sum_{n=1}^\infty P(A_n)<\infty$,则 $P(A_n\quad i.o.)=0$.

引理(Borel-Cantelli II)两两独立的事件序列 ${A_n}$,若 $\sum_{n=1}^\infty P(A_n)=\infty$,则 $P(A_n\quad i.o.)=1$.

第二引理如果把“两两独立”改成“独立”则较为简单,读者可自行完成。两两独立的证明可以参考 https://www.ma.imperial.ac.uk/~bin06/Stochastic-Analysis/ma414soln5.pdf

收敛有四种情况

考虑四种收敛:

  • 几乎必然收敛:$P(\lim_n X_n=X)=1$.

  • 依概率收敛:$\forall\varepsilon>0,\lim_n P(|X_n-X|>\varepsilon) =0$.

  • $L^p$ 收敛(convergence in $L^p$):$\lim_n\mathrm E|X_n-X|^p=0$.

  • 依分布收敛(convergence in distribution, weak convergence):在 $F(x)$ 的连续点上满足 $\lim_n F_n(x)=F(x)$.

他们的关系如下图。

一些性质:

  • 若 $X_n\overset{d} \to c$,$c$ 为常数,则 $X_n\overset{p}\to c$.
  • 若 $X_n\overset{P}\to X$,则存在子序列 $X_{n_j}\overset{a.s.}\to X$.
  • 设 $X_n\overset{d}\to X$,则对任意 $r>0$,以下两条等价:
    • $\lim_{n\to\infty} \mathrm E|X_n|^r=\mathrm E|X|^r<\infty$,
    • $\lim_{t\to \infty}\sup_n \mathrm E(|X_n|^r I(|X_n|>t))=0$.

a.s. 收敛

对于 a.s. 收敛,我们有等价表述: $$ \lim_n P(\bigcup_{m=n}^\infty{|X_m-X|>\varepsilon})=0, $$ 也即 $$ P(\limsup_{n\to\infty} {|X_n-X|>\varepsilon})=0, $$ 由此可以一眼看出它比依概率收敛强。此外,根据 Borel-Cantelli 引理,若 $\forall\varepsilon>0,\ \sum_{n=1}^\infty P({\omega\in\Omega:|X_n(\omega)-X(\omega)|>\varepsilon})<\infty$,则 $X_n\overset{a.s.}\to X$.

依分布收敛

下面的定理允许我们通过依分布收敛构造出 a.s. 收敛,厉害死了。

定理(Skorohod) 若 $X_n\overset{d}\to X$,则存在同一个概率空间上的随机变量 $Y,Y_1,Y_2,\cdots$,使得 $P_{Y_n}=P_{X_n},P_Y=P_X$(测度相等)且 $Y_n\overset{a.s.}\to Y$.

我们可以通过特征函数或密度函数来判断依分布收敛。

定理(Levy continuity) $X_n\overset{d}\to X$ 当且仅当特征函数逐点收敛,即 $\lim_n \varphi_n(x)=\varphi(x)\ \forall x\in\mathbb{R}$.

定理(Scheffes) 若密度函数存在且密度函数 a.e. 收敛,则 $X_n\overset{d}\to X$.

依分布收敛通常不能加减乘除,但如果有一个收敛到常数就可以:

定理(Slutsky) 设 $X_n\overset{d}\to X,Y_n\overset{d}\to c$,则

  • $X_n+Y_n\overset{d}\to X+c$
  • $X_nY_n\overset{d}\to cX$
  • $X_n/Y_n\overset{d}\to X/c$($c\ne 0$)

我们再来提供一个判定方法。

定理($\delta$-method) 设 $X_1,\cdots,Y$ 是 $k$ 维随机向量,${a_n}$ 是正数列,且 $\lim_n a_n=\infty$. 存在常数 $c\in\mathbb{R}^k$ 使得 $$ a_n(X_n-c)\overset{d}\to Y, $$ 设 $g:\mathbb{R}^k\to\mathbb{R}$。若 $\nabla g(c)$ 存在(列向量),则 $$ a_n\left[g(X_n)-g(c)\right]\overset{d}\to \nabla g(c)^TY. $$ 若 $g$ 在 $c$ 的邻域内 $m$ 阶连续可导,且对所有 $j$ 阶偏导数($1\le j\le m-1$)为 0,而 $m$ 阶偏导数不全为 0,则 $$ a_n^m\left[g(X_n)-g(c)\right]\overset{d}\to\frac{1}{m!}\sum_{1\le i_1,\cdots,i_m\le k}\frac{\partial^m g(c)}{\partial x_{i_1}\cdots\partial x_{i_m}}Y_{i_1}\cdots Y_{i_m}. $$

注:上述是对所有 $m$ 阶偏导数求和。对一元的情况,就是 $$ a_n^m\left[g(X_n)-g(c)\right]\overset{d}\to\frac{1}{m!}g^{(m)}(c)Y^m. $$

大家可以自己尝试证明,用 Taylor 展开即可。

定理 以下命题两两等价:

  • $X_n\overset{d}\to X$,
  • $\mathrm E h(X_n)\to \mathrm E h(X)$,对任意有界连续函数 $h$,
  • 对任意闭集 $C\subset \mathbb{R}^k$,$\limsup_n P_{X_n}(C)\le P_X(C)$,
  • 对任意开集 $O\subset \mathbb{R}^k$,$\limsup_n P_{X_n}(O)\ge P_X(O)$.

随机变量的渐近性质

类似于数列的 $O$,$o$ 记号,我们有:

  • $X_n=O_{a.s.}(Y_n)$,当且仅当 $P(|X_n|=O(Y_n))=1$,也即 $|X_n|\le c|Y_n|$ a.s.,

  • $X_n=o_{a.s.}(Y_n)$,当且仅当 $X_n/Y_n\overset{a.s.}\to 0$,

  • $X_n=O_P(Y_n)$,当且仅当 $\forall\varepsilon>0,\exists C>0,n_0\in\mathbb{N}$,使得 $$ \sup_{n\ge n_0}P({\omega\in\Omega:|X_n(\omega)|\ge C|Y_n(\omega)|})<\varepsilon. $$

  • $X_n=o_P(Y_n)$,当且仅当 $X_n/Y_n\overset{P}\to 0$.

特别地,若 $X_n=O_P(1)$,称 $X_n$ 依概率有界。

我们放出一些性质($O$ 是 $O_P$ 或 $O_{a.s.}$):

  • 传递性:$X_n=O(Y_n),Y_n=O(Z_n)\Rightarrow X_n=O(Z_n)$,
  • $X_n=O(Z_n)\Rightarrow X_nY_n=O(Y_nZ_n)$,
  • $X_n=O(Z_n),Y_n=O(Z_n)\Rightarrow X_n=O(Z_n)$,
  • 若 $X_n\overset{a.s.}\to X$,则 ${\sup_{n\ge k}|X_n|}_k=O_P(1)$,
  • 若 $X_n\overset{d}\to X$,则 $X_n=O_P(1)$,
  • 若 $\mathrm E|X_n|=O({\text 或 } o)(a_n)$,则 $X_n=O({\text 或 } o)_P(a_n)$.

上面最后一条可以用 Markov 不等式证明。

大数定律与中心极限定理

这两个东西在概率论中的地位家喻户晓。

大数定律

定理(强大数定律) $X_n$ i.i.d.,若 $\mathrm E|X_1|<\infty$,则 $$ \frac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to \mathrm EX_1. $$ 反之,若 $\mathrm E|X_1|<\infty$ 且 $\dfrac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to c$,则 $c=\mathrm EX_1$.

定理(弱大数定律) $X_n$ i.i.d.,若 $nP(|X_1|>n)\to 0$,则 $$ \frac{1}{n}\sum_{i=1}^nX_i-\mathrm E[X_1 I(|X_1|\le n)]\overset{P}\to 0. $$ 从而 $\dfrac{1}{n}\sum_{i=1}^nX_i\overset{P}\to \mathrm EX_1$.

对于不是 i.i.d. 的情况,我们也有大数定律。

定理 设 $X_1,X_2,\cdots$ 独立且期望有限,则

  • (强大数定律)若存在常数 $p\in[1,2]$ 使得 $\sum_{i=1}^\infty\dfrac{\mathrm E|X_i|^p}{i^p}<\infty$,则

    $$ \frac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to \mathrm EX_1. $$

  • (弱大数定律)若存在常数 $p\in[1,2]$ 使得 $\lim_{n\to\infty}\dfrac{1}{n^p}\sum_{i=1}^n\mathrm E|X_i|^p=0$,则 $$ \frac{1}{n}\sum_{i=1}^nX_i\overset{p}\to \mathrm EX_1. $$

中心极限定理

定理 设 $X_n$ i.i.d. $k$ 维,且 $\Sigma=\mathrm{Var}X_1$ 有限,则 $$ \frac{\sum_{i=1}^n(X_i-\mathrm EX_i)}{\sqrt{n}}\overset{d}\to N(0,\Sigma). $$