在 Markov 链的长时行为研究中,我们希望能够刻画两个分布之间的距离到底有多大。变分距离是其中一种方法。
设 μ,ν 是 X 上的两个分布,定义它们之间的总变分距离为
dTV(μ,ν)=A⊆Xsup∣μ(A)−ν(A)∣
这个距离并不容易计算,所以我们通常是给出一个它的上界或者下界的。
耦合可以给出一个上界,因为
dTV(μ,ν)≤inf{P(X=Y):(X,Y) is a coupling of μ and ν.}
当 P 是一个有限状态空间、不可约、非周期性 Markov 链时,设 A⊆X 是一个无法从 x 出发在 i 步以内达到的集合,则我们有
dTV(Pi(x,⋅),π)≥π(A)
超立方体上的懒随机游走
考虑 X={0,1}n,我们以 1/2 的概率不动,1/2 的概率随机选取一个坐标翻转。(也可以认为是随机选取一个坐标然后重设为随机值)。
dTV(μPi,π)≤P(Xi=Yi)≤P(T>i)
- 用下限的方法,可以得出在 n/2 步以内,我们都有 dTV(Pi(0,⋅),π)≥1−π(Ai)≥1/2
在离散变量情况下,它们具有如下性质:
- 变分距离为 0,当且仅当它们全等;
- 对称性
- 三角不等式
- 分布收敛等价于变分距离趋于 0
- 一个更方便的计算公式:
dTV(μ,ν)=21x∈X∑∣μ(x)−ν(x)∣=x:μ(x)>ν(x)∑μ(x)−ν(x)
相关内容
参考文献