跳到主要内容

线性回归

单变量线性回归

给定线性模型 y=ax+by=ax+b,定义误差函数

E(a,b)=12i(f(xi)yi)2E(a, b)=\frac12\sum_i(f(x_i)-y_i)^2

极小化即得。

拟合结果及其问题

泛化能力:对新数据的适应能力

过拟合:过于迎合数据,使得不具有泛化性。解决办法:

  1. 增加数据
  2. 正则化(加入 λw2/2\lambda|w|^2/2

维度灾难:参数太多,数据过于稀疏,模型泛化能力差。

最大似然法

设观察值可以写成

y=f(x,\w)+\varepsilon $$ 若 *ε* 是一个正态分布的噪声,则观察到的概率为 $$ p(y|x)=\mathcal N(y-f(x,\w)|0,\sigma^2)=\mathcal N(y|f(x,\w),\sigma^2)

总的概率是

p({y}{x},\w,β)=nN(y(n)f(x(n),\w),β1)p(\{y\}|\{x\},\w,\beta)=\prod_n\mathcal N(y^{(n)}|f(x^{(n)},\w),\beta^{-1})

注意到 lnp=βE(\w)+const.\ln p=-\beta E(\w)+\mathrm{const.},因此与最小二乘法一致。

Bayes 理论

p(\wD)=p(D\w)p(\w)p(D)p(\w|\mathcal D)=\frac{p(\mathcal D|\w)p(\w)}{p(\mathcal D)}

假设先验概率的分布是

p(\w)=N(\w0,α1\I)p(\w)=\mathcal N(\w|0,\alpha^{-1}\I)

则后验概率的对数是

logp=β2n(f(xn,\w)yn)2+α2\wT\w\log p=\frac{\beta}2\sum_n(f(x_n,\w)-y_n)^2+\frac{\alpha}2\w^T\w

普适线性回归

考虑函数形式

f(\x,\w)=iwiφi(\x)f(\x,\w)=\sum_iw_i\varphi_i(\x)

φi(\x)\varphi_i(\x) 为基函数并取 φ0(\x)=1\varphi_0(\x)=1。前面例子中用的是多项式基函数(全局性,小的变化影响所有基函数)。

也可以用 Gauss 基函数(局域性)。

正规方程

\w=(ΦTΦ)1ΦT\y\w=(\mathsf\Phi^T\mathsf\Phi)^{-1}\mathsf\Phi^{T}\y

有正则化项时正规方程变为

\w=(λ\I+ΦTΦ)1ΦT\y\w=(\lambda\I+\mathsf\Phi^T\mathsf\Phi)^{-1}\mathsf\Phi^{T}\y

正规方程

给定 mm 个实例 x1,y1,,xm,ymx_1,y_1,\cdots,x_m,y_m,每个实例含有 nn 个特征,那么定义 XX 是一个 m×(n+1)m\times (n+1) 的矩阵,yy 是一个 mm 行的向量,那么 θ\theta 的精确值是

θ=(XTX)1XTy\theta=(X^TX)^{-1}X^Ty

容量、过拟合、欠拟合

在机器学习中,我们使用训练集上的数据进行训练,但我们也希望在未知的样本上表现良好。我们需要平衡训练误差和泛化误差。

一般来说,我们会假定每个样本都是相互独立的,并且训练集和测试集是同分布的。

  • 欠拟合:不能在训练集上获得足够低的误差
  • 过拟合:泛化误差太大

通过调整模型的容量,我们可以控制模型偏向于过拟合或者欠拟合。

正则化的其他方案

正则化项的普遍形式是

λ2jwjq\frac{\lambda}{2}\sum_j|w_j|^{q}
  • q=1q=1: Lasso 回归
  • q=2q=2: 岭回归