线性回归

单变量线性回归

给定线性模型 $y=ax+b$ ，定义误差函数

E(a, b)=\frac12\sum_i(f(x_i)-y_i)^2

极小化即得。

泛化能力：对新数据的适应能力

过拟合：过于迎合数据，使得不具有泛化性。解决办法：

维度灾难：参数太多，数据过于稀疏，模型泛化能力差。

设观察值可以写成

y=f(x,\w)+\varepsilon $$ 若 *ε* 是一个正态分布的噪声，则观察到的概率为 $$ p(y|x)=\mathcal N(y-f(x,\w)|0,\sigma^2)=\mathcal N(y|f(x,\w),\sigma^2)

总的概率是

p(\{y\}|\{x\},\w,\beta)=\prod_n\mathcal N(y^{(n)}|f(x^{(n)},\w),\beta^{-1})

注意到 $\ln p=-\beta E(\w)+\mathrm{const.}$ ，因此与最小二乘法一致。

p(\w|\mathcal D)=\frac{p(\mathcal D|\w)p(\w)}{p(\mathcal D)}

假设先验概率的分布是

p(\w)=\mathcal N(\w|0,\alpha^{-1}\I)

则后验概率的对数是

\log p=\frac{\beta}2\sum_n(f(x_n,\w)-y_n)^2+\frac{\alpha}2\w^T\w

考虑函数形式

f(\x,\w)=\sum_iw_i\varphi_i(\x)

称 $\varphi_i(\x)$ 为基函数并取 $\varphi_0(\x)=1$ 。前面例子中用的是多项式基函数（全局性，小的变化影响所有基函数）。

也可以用 Gauss 基函数（局域性）。

正规方程

\w=(\mathsf\Phi^T\mathsf\Phi)^{-1}\mathsf\Phi^{T}\y

有正则化项时正规方程变为

\w=(\lambda\I+\mathsf\Phi^T\mathsf\Phi)^{-1}\mathsf\Phi^{T}\y

给定 $m$ 个实例 $x_1,y_1,\cdots,x_m,y_m$ ，每个实例含有 $n$ 个特征，那么定义 $X$ 是一个 $m\times (n+1)$ 的矩阵， $y$ 是一个 $m$ 行的向量，那么 $\theta$ 的精确值是

\theta=(X^TX)^{-1}X^Ty

在机器学习中，我们使用训练集上的数据进行训练，但我们也希望在未知的样本上表现良好。我们需要平衡训练误差和泛化误差。

一般来说，我们会假定每个样本都是相互独立的，并且训练集和测试集是同分布的。

通过调整模型的容量，我们可以控制模型偏向于过拟合或者欠拟合。

正则化项的普遍形式是

\frac{\lambda}{2}\sum_j|w_j|^{q}