主成分分析可以看成是学习一种低维表示,属于无监督学习算法。设数据为 Rn 上的点,我们令编码函数为 f,解码函数为 g,其中编码向量是 Rm 上的点。不妨设 g(x)=Wx,我们限制该矩阵为列向量正交归一的矩阵。给定 W,考虑最优编码
c=argminc(x)−g(c)2/2
可以得到 c=WTx 现在我们进一步选择矩阵 W:
W∗=Dargmini,j∑(xj(i)−r(x(i))j)2 subject to W⊤W=Il
记设计矩阵为 m×n,解该方程,得到 W 是 XTX 的前 I 个最大特征值对应的特征向量组成。
又因为无偏样本协方差矩阵为
Var[x]=m−11X⊤X
由于 XTX=WΛWT 实际上对应着奇异值分解 X=UΣWT,我们容易得到低维表示 c 满足
Var[z]=m−11Z⊤Z=m−11W⊤X⊤XW=m−11W⊤WΣ2W⊤W=m−11Σ2