跳到主要内容

结构化概率模型

结构化概率模型使用图来描述概率分布中随机变量之间的直接相互作用,从而描述一个概率分布。

引言

深度学习要求计算机能够理解具有丰富结构的高维数据,例如图片和自然语言。

如果我们希望对包含 nn 个离散变量并且每个变量都能取 kk 个值的 xx 分布建模,那么最朴素的表示 P(x)P(x) 的方法需要记录 knk^n 个参数。显然,这样的模型非常不便于计算,而且容易导致过拟合。

这个方法的主要问题是我们显式地对每一种可能的变量子集产生的每一种可能类型的相互作用建模。在实际问题中,我们遇到的概率分布比这简单地多。

图模型

每一个结点代表随机变量,每一条边代表一个直接相互作用。

有向模型

有向概率模型是通过有向无环图 GG 和一系列局部条件概率分布来定义的,即

p(x)=ip(xipred(xi))p(x)=\prod_ip(x_i|\operatorname{pred}(x_i))

一般地,用 mm 代表单个条件概率分布中最大的变量数目,如果有 mnm\ll n,那么复杂度就会被大大地减小。

无向模型

当相互作用的变量没有明确的方向关系时,应该使用无向模型。记无向图为 GG,则对图中的每一个团(全连接结点),可以定义一个因子 ϕ(C)\phi(C),使得

p~(x)=Cϕ(C)\tilde p(x)=\prod_C\phi(C)

这个概率模型未必是归一化的,定义

Z=p~(x)dxZ=\int \tilde p(x)\mathrm dx

这个配分函数通常不易计算。

基于能量的模型

p~(x)=exp(E(x))\tilde p(x)=\exp(-E(x))

这样可以保证所有的状态概率都是正的。无向模型中的不同团实际上对应于能量函数的不同项之和。