常见随机变量及其分布

//TODO

指数分布

指数分布的概率密度函数:

f(t)=\left\{ \begin{aligned} λe^{-λt},t\geq0\\ 0,t<0 \end{aligned} \right.

概率分布函数:

F(t)=\left\{ \begin{aligned} 1-e^{-λt},t\geq0\\ 0,t<0 \end{aligned} \right.

指数分布的无记忆性

P(T>s+t|T>t)=P(T>s)

例如,已知一个元件使用了 t 小时,那么它能继续正常使用 s 小时的概率与从一开始正常使用 s 小时的概率相同。

随机过程

随机过程是一组随机变量按照某种规则演变的过程。它可以看作是一个由时间或空间参数索引的一系列随机变量的集合,用来描述系统在不确定条件下的演化。

一组随机变量 \{X(t),t\in T\},其中 t 是参数,T 称为参数集。

  • 有限维分布函数族
    //TODO
  • 独立增量过程
    //TODO
  • 平稳增量过程
    //TODO

马尔可夫过程

马尔可夫链(Markov Chain)是一种特殊的随机过程,它具有马尔可夫性质 (马氏性) —— 即当前状态决定了系统的未来发展,而与过去的状态无关。换句话说,马尔可夫链的未来状态只依赖于当前的状态,而不依赖于系统到达当前状态所经过的历史。
X_t 表示随机过程 {X_t,t=0,1,2,...} 在离散时刻 t 的取值,S={s_1,s_2,...} 是随机过程的状态空间。若该随机过程具有马氏性,则对于任意 X_t,满足:

P(X_{t+1}=s_j | X_0=s_0,X_1=s_1,...,X_t=s_i)\\ =P(X_{t+1}=s_j|X_t=s_i)

k 步转移概率

k 步转移概率是指:马尔可夫过程从时刻 t,经过 k 次状态转移到下一个时刻 t+k,从状态 s_i 转移到另一个状态 s_j 的概率。

p_{ij}^{(k)}(t)=P(X_{t+k}=s_j|X_t=s_i)

p_{ij}^{(k)}(t)与起始时刻 t 无关,则称这个马氏链为齐次马尔可夫链,此时 k 步转移概率记为 p_{ij}^{(k)},当 k = 1 时可简写为 p_{ij}
所有 p_{ij} 构成一步转移概率矩阵:

P=\left[ \begin{matrix} p_{11} & p_{12} & ... & p_{1n}\\ p_{21} & p_{22} & ... & p_{2n}\\ ... & ... & ... & ...\\ p_{n1} & p_{n2} & ... & p_{nn} \end{matrix} \right]

C-K方程

如果 {X_t|...} 是一个齐次马氏链,从 k 步转移概率的定义我们可以得到:

p_{ij}^{(m+n)}=\sum_{k=1}^{n}p_{ik}^{(m)}p_{kj}^{(n)},i,j=1,2,...

P^{(n)} 为齐次马氏链的 n 步转移概率的矩阵形式,则 C-K 方程的矩阵形式可以表示为:

P^{(n+m)}=P^{(n)}\cdot P^{(m)}

在计算时,对于任意 n \in N,求 P^{(n)},可以先求出一步转移概率矩阵 P,然后

P^{(n)}=P^n

其中 P^n 是 P 的 n 次幂。

稳态存在性

设 π 表示马尔可夫链的某个状态概率分布:

π = (π_1,π_2,π_3,...)

这里 π 是一个 n 维向量,n 即马尔可夫链的状态数,π_i 表示 X=s_i 的概率。
已知这个马尔可夫链的一步转移概率矩阵 P,可写出稳态分布方程:

πP = π

即,

\begin{cases} π_1P_{11}+π_2P_{21}+...+π_nP_{n1} &= π_1\\ π_1P_{12}+π_2P_{22}+...+π_nP_{n2} &= π_2\\ ...\\ π_nP_{1n}+π_2P_{2n}+...+π_nP_{nn} &= π_n\\ \end{cases}

得到的 π 就是这个马尔可夫链的稳态概率分布。

稳态唯一性

// TODO

泊松过程

// TODO

参数估计方法

最大似然估计

最大似然估计用于从样本数据找出模型参数。用数学语言可以描述为:
若抽样得到的样本观测值为 X=(x_1,x_2,...,x_n),则选取参数 \hat\theta 作为参数变量 \theta 的估计值,使得 \theta=\hat\thetaX 出现的概率最大。
似然函数的定义:

L(\theta)=P(X|\theta)

如果样本是独立同分布的,似然函数可以写为:

L(\theta)=\prod_{i=1}^nP(x_i|\theta)\\ \log L(\theta)=\sum_{i=1}^n\log P(x_i|\theta)

\theta=\hat\thetaL(\theta) 取得最大值。如果 L 连续可导,则用导数形式可以表示为:

\frac{\partial}{\partial\theta}\log L(\theta)=0

举个应用例子,已知样本 X=(x_1,x_2,...,x_n) 从正态分布 N(\mu,\sigma^2) 中随机抽样得出,但正态分布的参数 \mu\sigma 未知。
正态分布的概率密度

最大后验估计

贝叶斯估计

最小二乘法