这一部分是本科基础课的内容,以复习为主,只快速回顾一遍要点,不罗嗦。

测度空间

$\sigma$-代数

定义 集合 $\Omega$ 的子集族 $\mathcal{F}$ 称为 $\sigma$-代数,如果

  • 空集条件:$\varnothing\in\mathcal{F}$,
  • 补集条件:$A\in\mathcal{F}\Rightarrow A^c\in\mathcal{F}$,
  • 可列并封闭:若 $A_i\in\mathcal{F},i\in\mathbb{N}$,则 $\bigcup A_i\in\mathcal{F}$.

二元组 $(\Omega,\mathcal{F})$ 称为可测空间

给定集族 $\mathcal{C}$,定义 $\sigma(\mathcal{C})$ 为所有包含 $\mathcal{C}$ 的 $\sigma$-代数的交。可以证明 $\sigma(\mathcal{C})$ 是包含 $\mathcal{C}$ 的最小 $\sigma$-代数。特别地,若 $\Omega=\mathbb{R}^d$,$\mathcal{O}$ 为所有开集的集合,称 $\sigma(\mathcal{O})$ 为 Borel $\sigma$-代数,记作 $\mathcal{B}^d$。其中的集合称为 Borel 集

测度

定义 给定 $(\Omega,\mathcal{F})$,函数 $\nu:\mathcal{F}\to\mathbb{R}\cup{+\infty}$ 称为测度,若满足

  • 非负:$0\leq\nu(A)\leq\infty,\forall A\in\mathcal{F}$,
  • 空集条件:$\nu(\varnothing)=0$,
  • 可列可加性:若 $A_i$ 互不相交,则 $\sum_{i=1}^\infty\nu(A_i)=\nu\left(\bigcup_{i=1}^\infty A_i\right)$.

三元组 $(\Omega,\mathcal{F},\nu)$ 称为测度空间

我们有样本空间 $\Omega$,事件空间 $\mathcal{F}$。在其上的测度 $P$ 如果满足 $P(\Omega)=1$,则 $(\Omega,\mathcal{F},P)$ 称为概率空间,$P$ 称为概率测度

若存在一列 $A_i$,使得 $\bigcup A_i=\Omega$ 且 $\nu(A_i)<\infty$,则称 $\nu$ 是 $\sigma$-有限的。显然概率测度都是 $\sigma$-有限的

Lebesgue测度

对区间 $I=(a,b)$,记 $|I|=b-a$. 对任意集合 $A\subset\mathbb{R}$ 定义 Lebesgue 外侧度: $$ m^(A)=\inf\left.\left{\sum_{k=1}^\infty|I_k|\right|A\subset\bigcup I_k\right}. $$ 这样定义的外测度满足次可加性,即 $m^(A\cup B)\leq m^(A)+m^(B)$. 在满足如下 Caratheodory 条件的集合上,外测度可以升级为测度。具体地,令 $$ \mathcal{F}={A\subset\mathbb{R}|\forall T\subset\mathbb{R},m^(T)=m^(T\cap A)+m^*(T\cap A^c)}. $$

可以证明 $\mathcal{F}$ 是 $\sigma$-代数,且 $\mathcal{B}\subsetneqq\mathcal{F}$. 对 $A\in\mathcal{F}$,定义 $$ m(A)=m^*(A). $$ 可以证明 $m$ 是测度,称为 Lebesgue 测度

$\mathbb{R}^n$ 是类似的。之后提到 $\mathbb{R}^n$,默认的测度空间便是 $(\mathbb{R}^n,\mathcal{B}^n,m)$.

Lebesgue 积分

可测函数

如果可测集的原象是可测集,这个函数就叫可测函数。具体地:设 $(\Omega,\mathcal{F})$ 和 $(\Lambda,\mathcal{G})$ 是两个可测空间,$f:\Omega\to\Lambda$ 可测,如果 $\forall A\in\mathcal{G},f^{-1}(A)\in\mathcal{F}$.

特别地,映射到 $(\mathbb{R}^n,\mathcal{B}^n)$ 的可测函数称为 Borel 函数。概率空间上的 Borel 函数称为随机变量,通常记作 $X,Y,Z,…$.

对可测函数 $f:(\Omega,\mathcal{F})\to(\Lambda,\mathcal{G})$,可以证明 $f^{-1}(\mathcal{G}):={f^{-1}(A)|A\in\mathcal{G}}$ 是 $\mathcal{F}$ 的子集,且是 $\sigma$-代数,记作 $\sigma(f)$.

Lebesgue 积分

设测度空间 $(\Omega,\mathcal{F},\nu)$, 下面我们对所有 Borel 函数 $f$ 定义 Lebesgue 积分(允许值是无穷)。

首先,若 $f(x)=\sum_{i=1}^k c_iI_{A_i}(x)$,其中 $A_i\in\mathcal{F},c_i\ge 0$,则称 $f$ 为非负简单函数。对非负简单函数,定义 $$ \int fd\nu=\sum_{i=1}^k c_i\nu(A_i). $$ 其次,对非负 Borel 函数 $f$,定义 $$ \int fd\nu=\sup\left.\left{\int gd\nu\right|g\text{ 是非负简单函数且 }g\le f\right}. $$ 最后,对 Borel 函数 $f$,将其分为正部和负部。令 $f_+(x)=\max{f(x),0}$, $f_-(x)=-\min{f(x),0}$,有 $f=f_++f_-$. 若 $\int f_+d\nu$ 和 $\int f_-d\nu$ 至少有一个有限,则 $f$ 的积分存在: $$ \int f_{}d\nu=\int f_+d\nu-\int f_-d\nu, $$ 若 $\int f_+d\nu$ 和 $\int f_-d\nu$ 都他娘的无穷大,那积分就不存在了。

思考:Lebesgue 积分的性质优于 Riemann 积分的本质原因是什么?看起来只是把竖着切变成横着切而已。此外,这是否意味着 Riemann 积分可以淘汰了?

参考:https://kexue.fm/archives/4083

积分的极限定理

这是关于交换积分和极限的三大定理,他们之间互相等价。证明见 https://zhuanlan.zhihu.com/p/33566658.

定理(Levi) 设函数们 $f_n(x)$ 都在 $E$ 上非负可测,且满足其关于 $n$ 单调递增,且 $\lim_{n\to\infty}f_n(x)=f(x)$,则 $$ \lim_{n\to\infty}\int_E f_n(x)dx=\int_E f(x)dx. $$ 定理(Fatou) 设函数们 $f_n(x)$ 都在 $E$ 上非负可测,则 $$ \int_E \liminf_{n\to\infty} f_n(x)dx\le \liminf_{n\to\infty}\int_E f_n(x)dx. $$ 定理(Lebesgue) 设函数们 $f_n(x)$ 都在 $E$ 上可测,且 $\lim_{n\to\infty}f_n(x)=f(x)$,并且存在 $F\in L(E)$,使得 $|f_n(x)|\le F(x)\text{ (a.e.)}$,则 $$ \lim_{n\to\infty}\int_E |f_n(x)-f(x)|dx=0. $$ 此外,还有一个很重要的 Fubini 定理,它允许我们使用累次积分计算重积分,并且可以交换顺序:

定理(Fubini) 若 $f(x,y)$ 可积,则 $$ \int_{A\times B}f(x,y)dxdy=\int_B\left(\int_A f(x,y)dx\right)dy=\int_A\left(\int_B f(x,y)dy\right)dx $$

作为 Lebesgue 控制收敛定理的重要应用,我们来介绍积分号下求导的定理(出自本科讲义):

定理 设 $E\subset\mathbb{R}^d$ 可测,$I$ 是开区间,$f:E\times I\to\mathbb{R}$. 若对每个 $t\in I,\ f(x,t)$ 关于 $x$ 可积,且对每个 $x\in E$, $f(x,t)$ 关于 $t$ 可微,且存在 $0\le G\in L^1(E)$ 使得 $$ \left|\dfrac{\partial f}{\partial t}(x,t)\right|\le G(x), $$ 则 $$ \frac{d}{dt}\int_E f(x,t)dx=\int_E \frac{\partial f}{\partial t}(x,t)dx,\ t\in I. $$

关键就是找一个控制函数 $G(X)$. 记不住也没关系,在学统计的时候,积分和求导总是可交换的。

积分换元

测度空间 $(\Omega,\mathcal{F},\nu)$,可测空间 $(\Lambda,\mathcal{G})$,可测函数 $f:\Omega\to\Lambda$. 则 $f$ 诱导了 $\Lambda$ 上的测度,记作 $\nu\circ f^{-1}$,定义为 $$ \nu\circ f^{-1}(B)=\nu(f^{-1}(B)),\ \ \forall B\in\mathcal{G}. $$ 对于诱导测度,我们有积分换元公式: $$ \int_\Omega g\circ f d\nu=\int_{\Lambda} gd(\nu\circ f^{-1}). $$ 特别地,设 $(\Omega,\mathcal{F},P)$ 为概率空间,$X$ 是随机变量,我们有诱导测度 $P_X=P\circ X^{-1}$,称为 $X$ 的分布(distribution or law)。

随机变量的分布

从现在开始我们将以概率论为主线进行。回忆随机变量指的是概率空间上的 Borel 函数。它定义在概率空间上,值是实数,并且可测。

累积分布函数(CDF)

定义 设 $(\Omega,\mathcal{F},P)$ 为概率空间,$X$ 是随机变量。定义 $X$ 的累积分布函数为 $$ F_X(x)=P(X\le x). $$

概率密度函数(PDF)

我们希望建立起“概率密度函数”这一概念。通常可以理解为 CDF 的导数。

绝对连续(Absolutely continuity)

定义 $\lambda$ 和 $\nu$ 是可测空间上的两个测度,若对任意的可测集 $A$ 都有:$\nu(A)=0\Rightarrow \lambda(A)=0$,则称 $\lambda$ 关于 $\nu$ 绝对连续,记作 $\lambda\ll\nu$.

乍一看和连续没啥关系,但对 $\sigma$-finite 的测度,我们有一个长得像“连续”的推论:

若 $\lambda$ 是有限的,则 $\lambda\ll\nu$ 当且仅当 $\forall\varepsilon>0,\exist\delta>0,s.t\ \forall A,\nu(A)<\delta\Rightarrow \lambda(A)<\varepsilon$.

意思是,当 $\nu$ 给出非常小的测度时,$\lambda$ 也必须小。证明留做习题。也可参见:测度的绝对连续和相互奇异 - 查哥半桶水的文章 - 知乎 Proposition 13.9

Radon-Nikodym 导数

我们先来看一个命题,证明留做习题。

$f$ 为非负可测函数,令 $$ \lambda(A):=\int_Af{\mathrm d}v,A\in\mathscr{F}, $$ 则 $\lambda\ll \nu$.

而它的逆命题就是 Radon-Nikodym 定理,但要加上一个 $\nu$ $\sigma$-finite 的条件:

**定理(Radon-Nikodym) **$\lambda,\nu$ 是测度,$\nu$ 是 $\sigma$-finite 的。若 $\lambda\ll\nu$,则存在唯一的非负 Borel 函数 $f$ 使得 $$ \lambda(A)=\int_Af{\mathrm d}v,A\in\mathscr{F}. $$

证明已经超出本课程要求了,可以参见:Radon-Nikodym 定理 (1) - 查哥半桶水的文章 - 知乎

我们记上述 $f=\dfrac{\mathrm{d}\lambda}{\mathrm{d}\nu}$,$f$ 称为 $\lambda$ 关于 $\nu$ 的 R-N 导数(或密度)。

概率密度函数

定义 若 $P$ 是概率测度,$\nu$ 是 $\sigma$-finite 的测度,$P\ll\nu$,则 $\dfrac{{\mathrm{d}}P}{\mathrm{d}\nu}$ 称为 $P$ 对 $\nu$ 的概率密度函数(probability density function, PDF)。

通常我们取 Lebesgue 测度 $m$,若 $F$ 可导,记 $f=F'$,有 $\dfrac{dP}{dm}=f$. 这就是我们常用的形式了。

随机变量的数字特征

矩(Moments)

定义 对于 $(\Omega,\mathcal{F},P)$,若如下积分存在,则称之为期望: $$ \mathrm{E}(X)=\int_\Omega X(\omega)dP(\omega)=\int_\mathbb{R}xdF_X(x). $$ 更一般地,设 $n$ 为正整数,若 $\mathrm E(X^n)$ 存在,则称为 $X$ 的 $n$ 阶(moment);若 $\mathrm E((X-\mathrm EX)^n)$ 存在,则称为 $X$ 的 $n$ 阶中心矩。二阶中心矩又叫做方差,记作 $\mathrm{Var}(X)$.

对随机向量,定义是类似的,对每个位置分别计算矩即可。

特征函数与矩母函数

定义 有随机变量 $X$。特征函数(characteristic function, ch.f.)$\varphi:\mathbb{R}\to\mathbb{C}$ 定义为 $$ \varphi_X(t)=\mathrm E\left(e^{itX} \right),\ \forall t\in \mathbb{R}. $$ 矩母函数(moment generating function, m.g.f.) $\psi:\mathbb{R}\to\mathbb{R}$ 定义为 $$ \psi_X(t)=\mathrm E\left(e^{tX}\right),\ \forall t\in \mathbb{R}. $$ 几点说明:

  • $\left|e^{itX}\right|\leq 1$,因此 $\varphi$ 总是存在且有限。
  • $e^{tX}>0$,因此 $\psi$ 也总有定义,但有可能是无穷大。
  • 若密度函数 $f$ 存在,则 $\varphi$ 是 $f$ 的 Fourier 变换,$\psi$ 是 $f$ 的 Laplace 变换。

我们介绍几条性质。

性质 若 $\psi_X$ 在一个包含 0 的开区间内有限,则

  • $X$ 的任意阶矩存在有限,并且 $E(X^n)=\left.\dfrac{d^n\psi_X(t)}{dt^n}\right|_{t=0}$,
  • $\psi_X$ 唯一决定了一个概率分布,
  • $\varphi_X(t)=\psi_X(it)$.

性质 $\varphi(x)$ 唯一决定了一个概率分布。

我要另起一篇写了,不然这页就太长了。