降维算法: 奇异值分解SVD

动动发财的小手，点个赞吧！

1. 为什么降维

总所周知，在低维下，数据更容易处理，但是在通常情况下我们的数据并不是如此，往往会有很多的特征，进而就会出现很多问题：

多余的特征会影响或误导学习器
更多特征意味着更多参数需要调整，过拟合风险也越大
数据的维度可能只是虚高，真实维度可能比较小
维度越少意味着训练越快，更多东西可以尝试，能够得到更好的结果
如果我们想要可视化数据，就必须限制在两个或三个维度上

因此，我们需要通过降维（dimensionality reduction）把无关或冗余的特征删掉。

现有降维方法：

2. SVD 概述

奇异值分解（Singular Value Decomposition）简称SVD，主要作用是简化数据，提取信息。

利用SVD实现，我们能够用小得多的数据集来表示原始数据集。这样做，实际上是去除了噪声和冗余信息。当我们试图节省空间时，去除噪声和冗余信息就是很崇高的目标了，但是在这里我们则是从数据中抽取信息。基于这个视角，我们就可以把SVD看成是从有噪声数据中抽取相关特征。

SVD是如何从这些充满着大量噪声的数据中抽取相关特征呢？

SVD的公式：

这个公式中， U 和 V 都是正交矩阵，即：

原始数据集A是一个m行n列的矩阵，它被分解成了三个矩阵，分别是：

这个公式用到的就是矩阵分解技术。在线性代数中还有很多矩阵分解技术。矩阵分解可以将原始矩阵表示成新的易于处理的形式，这种新形式是两个或多个矩阵的乘积。

不同的矩阵分解技术具有不同的性质，其中有些更适合于某个应用，有些则更适合于其他应用。最常见的一种矩阵分解技术就是SVD。

Example

Example

3. SVD 的应用

3.1. 信息检索

最早的SVD应用之一就是信息检索。利用SVD方法为隐形语义索引（Latent Semantic Indexing，LSI）或者隐形语义分析（Latent Semantic Analysis，LSA）。

在LSI中，一个矩阵是由文档和词语组成的。当我们在该矩阵上应用SVD时，就会构建出多个奇异值。这些奇异值代表了文档中的概念或主题，这一特点可以用于更高效的文档搜索。在词语拼写错误时，只基于词语存在与否的简单搜索方法会遇到问题。简单搜索的另一个问题就是同义词的使用。这就是说，当我们查找一个词时，其同义词所在的文档可能并不会匹配上。如果我们从上千篇相似的文档中抽取出概念，那么同义词就会映射为同一概念。这样就可以大大提高文档搜索的效率。

3.2. 推荐系统

SVD的另外一个应用就是推荐系统。也是目前SVD最主要的一个应用简单版本的推荐系统能够计算项或者人之间的相似度。更先进的方法则先利用SVD从数据中构建一个主题空间，然后再在该空间下计算其相似度。

展开阅读全文

页面更新：2024-03-05

标签：奇异分解维度冗余同义词矩阵噪声算法特征文档数据

1 2 3 4 5

降维算法: 奇异值分解SVD

1. 为什么降维

2. SVD 概述

3. SVD 的应用

3.1. 信息检索

3.2. 推荐系统

“第二个郑州”出现了？富士康30亿投资建厂，华为也在此“落户”

iPhone 15最全猛料！祖传设计被改，十个预备大招

重磅！中企正式宣布：芯片制造设备国产替代加速

把用户当傻子？北航教授揭开5G的“遮羞布”，工信部：绝不手软

华为摊牌了，高端旗舰Mate50 Pro直降1090元，难道是卖不动了吗？

全国已达200人！这款大湾区高级复合型人才又“上新”了

我，新能源车“怨种”，维权跑“断”腿

美国硅谷银行破产关闭，存款达 1.2 万亿，大量储户提前「逃跑」

谷歌Pixel 7a手机曝光或将在Google I/O 2023发布

首个双生病毒昆虫数据库构建成功

从中兴通讯的2022年财报看，欧美市场的坑，国内市场补上了

詹姆斯-韦伯太空望远镜拍摄到令人惊叹的星体形成早期阶段

实现一批“从0到1”的原创性突破陕西夯实科技自立自强根基

SOL 和DOGE推动加密货币市场，ORBN成为主要参与者

预计19.98万起售，新款小鹏G6实车发布，造型酷似宝马X6

首个双生病毒昆虫数据库构建成功

凯尔：比赛数据都是多特占优，没能赢下鲁尔德比让我感到很

企业大数据应用平台ETL系统运维实施技术方案

真的是盛唐，弱宋吗？我们看看最真实的数据

大乐透第23027期，Python神经网络学习数据分析

数据“向西”，贵州凭什么

企业破产会计处理的基本特征

两会雷军的汽车数据安全提案引热议智能汽车数据安全

大数据：高斯过程回归

清华大学研发：最先进的深度学习分类算法Meta-Semi