线性主成分分析

主成分分析可以看成是学习一种低维表示，属于无监督学习算法。设数据为 $\mathbb R^n$ 上的点，我们令编码函数为 $f$ ，解码函数为 $g$ ，其中编码向量是 $R^m$ 上的点。不妨设 $g(x)=Wx$ ，我们限制该矩阵为列向量正交归一的矩阵。给定 $W$ ，考虑最优编码

c=\arg\min c(x)-g(c)^2/2

可以得到 $c=W^Tx$ 现在我们进一步选择矩阵 $W$ ：

W^{*}=\underset{D}{\arg \min } \sqrt{\sum_{i, j}\left(x_{j}^{(i)}-r\left(x^{(i)}\right)_{j}\right)^{2}} \text { subject to } W^{\top} W=I_{l}

记设计矩阵为 $m\times n$ ，解该方程，得到 $W$ 是 $X^TX$ 的前 $I$ 个最大特征值对应的特征向量组成。

又因为无偏样本协方差矩阵为

\operatorname{Var}[\boldsymbol{x}]=\frac{1}{m-1} \boldsymbol{X}^{\top} \boldsymbol{X}

由于 $X^TX=W\Lambda W^T$ 实际上对应着奇异值分解 $X=U\Sigma W^T$ ，我们容易得到低维表示 $c$ 满足

\begin{aligned} \operatorname{Var}[\boldsymbol{z}] &=\frac{1}{m-1} \boldsymbol{Z}^{\top} \boldsymbol{Z} \\ &=\frac{1}{m-1} \boldsymbol{W}^{\top} \boldsymbol{X}^{\top} \boldsymbol{X} \boldsymbol{W} \\ &=\frac{1}{m-1} \boldsymbol{W}^{\top} \boldsymbol{W} \boldsymbol{\Sigma}^{2} \boldsymbol{W}^{\top} \boldsymbol{W} \\ &=\frac{1}{m-1} \boldsymbol{\Sigma}^{2} \end{aligned}