PCA通俗解释

主成分分析(Principal Component Analysis,PCA)是非常经典的降维算法,属于无监督降维。

一、为什么要进行PCA

桌子那边有一些红酒瓶。我们可以通过色泽、酒精度、年份等描述每瓶红酒。这样可以根据酒窖中每瓶红酒的不同特性编制一张完整的列表。但是其中很多属性是相关的,因此会出现一些冗余。因此我们可以通过更少的特性总结每瓶酒!这正是PCA做的

PCA并没有选择一些特性然后丢弃其余。相反,它创建一些新特性,结果这些新特性能够很好地总结我们的红酒列表。当然,这些新特性是由旧特性构建的;例如,一个新特性可能通过计算年份减去酸度或其它类似的组合得出(我们称之为线性组合)。

1、新特征具体是什么

  • 第一个答案是你寻找一些在所有红酒中很不相同的属性(特性)。

    红酒和红酒很不一样,如果你得到了一个对于大多数红酒而言都一样的特性,那么它们看起来都差不多了,这肯定是一个错误的总结。相反,PCA寻找能尽可能体现红酒差异的属性。

  • 第二个答案是你寻找一些属性,这些属性允许你预测,或者说“重建”原本的红酒特性。

    同样,如果你得出了一个和原本的特性没什么关系的属性;那么仅仅使用这一新属性,你不可能重建原本的特性,这又将是一个不好的总结。所以PCA寻找能够尽可能好地重建原本特性的属性。

注意:这两个目标是等效的。

2、为什么这两个目标是等效的

下面我们看一个二维数据降维成一维的例子:

  • 红点:原始数据集
  • 绿点:降维后的数据集
  • 紫线 u1 :二维的特征 x1, x2 降维后的一维特征(此时为最佳)
  • 蓝线:投影(降维)造成的损失

第一个目标是寻找尽可能体现差异的属性,在这个图上就是最大化投影后数据的方差,让数据在经过变换后更加分散,也就是图中绿色的点更加分散

第二个目标是寻找能够尽可能好地重建原本特性的属性,在这个图上就是最小化投影造成的损失,也就是图中所有蓝色的线(投影造成的损失)加起来最小

参考

赞赏一杯咖啡
0%