跳到主要内容

生成模型

统计归类问题

统计归类问题简介

统计归类问题是通过学习训练集中各个观测的归类来给新的观测进行归类的问题。在机器学习中,统计归类被视为一种有监督学习,与聚类相对。

在统计归类问题中,每一个观测可以提取出一系列可量化的性质,称为特征;而观测所对应的分类称为类。

区分模型与生成模型

给定一组观测变量 X 和目标变量 Y

  • 非概率分类器能直接计算出目标变量
  • 生成模型是一个联合概率分布函数 P(X,Y)P(X,Y)
  • 区分模型是一个条件概率分布函数 P(YX=x)P(Y|X=x)

结构化概率模型

动机:在描述很多个变量的联合概率分布时,由于变量之间的关联只在很少的变量之间起作用,所以用单个函数描述整个联合概率分布非常低效。

如果我们将每个随机变量看作一个结点,有关联的随机变量之间有边,则构成了一个图模型。

有向图

即图带有有向边,它使得联合概率可以分解为条件概率:

p(x)=ip(xipred(x))p(x)=\prod_ip(x_i|\mathrm{pred}(x))

无向图

将无向图分解为互不连接的团,表示为

p(x)=1Ziϕ(i)(C(i))p(\mathbf{x})=\frac{1}{Z} \prod_{i} \phi^{(i)}\left(\mathcal{C}^{(i)}\right)

注意图模型只是描述分布的一种方法,不是概率分布本身的特性。任何概率分布可以用这两种方式描述。