Item2Vec: Word2vec方法的推广

在Word2vec诞生之后，Embedding 的思想迅速从自然语言处理领域扩散到几乎所有机器学习领域，推荐系统也不例外。既然 Word2vec可以对词“序列”中的词进行Embedding，那么对于用户购买“序列”中的一个商品，用户观看“序列”中的一个电影也应该存在相应的 Embedding方法。

于是，微软于2015年提出了ltem2Vec方法，它是对Word2vec方法的推广，使Embedding方法适用于几乎所有的序列数据。ltem2Vec模型的技术细节几乎和Word2vec完全一致，只要能够用序列数据的形式把我们要表达的对象表示出来，再把序列数据“喂'给Word2vec模型，我们就能够得到任意物品的Embedding 了。ltem2vec的提出对于推荐系统来说当然是至关重要的，因为它使得“万物皆Embedding"成为了可能。对于推荐系统来说，ltem2vec可以利用物品的Embedding直接求得它们的相似性，或者作为重要的特征输入推荐模型进行训练，这些都有助于提升推荐系统的效果。

什么是Item2Vec？

为了推荐场景中物品相似度计算的问题，将推荐场景的物品序列数据当做自然语言处理中的token，从而进行Word2Vec的建模。比如在微软的APP商店，每个用户在一段时间内下载或者点击的用户行为，将其按照时间排序得到每个用户的行为序列，相当于每个用户产生了多个句子。使用滑动窗口去遍历整个句子，在窗口内的词为正样本，窗口外的词为负样本，负样本按照word2vec策略进行负采样。将得到的数据集送进word2vec进行学习，就得到了每个item的向量表示。

我们可以知道，在模型方面Item2Vec几乎是照搬Skip-Gram。

Item2Vec原理

对于出现在同一个集合的item对我们视为正样本，对于集合 ω 1 , ω 2 , ⋯ , ω K，目标函数为

利用负采样，将 p ( w j ∣ w i )

简单而言，对于给定的item序列，选择窗口大小为c，skip-gram通过当前item来预测前后c个item的概率，从而使得其后验概率最大，通过极大似然进行优化整体损失。

负采样的词频计算方式跟word2vec一样。

Item2Vec的影响

主要有两点：

Item2Vec将Word2Vec应用于推荐系统，实现了物品隐向量的高效学习。可以再次基础上进行各种推荐场景的应用，比如以物推物，猜你喜欢等。
Item2Vec是针对序列数据进行建模，现实互联网中的数据很多程网状结构，比如维基百科、社交网络以及由用户行为数据生成的物品全局图等等。网状结构中包含的大量有用的结构信息就丢失掉了。

本文由小码农和农夫原创，欢迎关注，带你一起长知识！

展开阅读全文

页面更新：2024-04-24

标签：方法自然语言序列样本模型窗口物品数据用户系统

1 2 3 4 5

Item2Vec: Word2vec方法的推广

什么是Item2Vec？

Item2Vec原理

Item2Vec的影响

中美两大国抢占“元宇宙”赛道

旧手机也能发挥余热，它可改造为智能家居的新入口

上榜2022年“湖南十大科技新闻”！中联重科新能源领域引领实力彰显

全新2023款雷克萨斯RZ开启预售，预售价格区间为37.5—46.5万元

谷歌Stadia手柄将获得蓝牙支持，服务结束后不会变废品

微软杀软Defender误删开始菜单/任务栏捷方式

棋被盘活了，华为新年第一单打开海外市场，小米拿下国产高端第一

棋逢对手！华为P60系列信息曝光；苹果迎来重要的新挑战是小米！

iPhone14Pro怎么样？果粉有话说：纯粹精致感没得说，再选还是它

元宇宙、MCN出海、数字营销…机遇还是陷阱？

最新！70城房价出炉！快看你家是涨还是降

百亿“顶流”陆彬四季报出炉，净值回撤大，基民：永远走在回本的路上

紧抓“数字化”关键变量？看长沙这些县域如何出招

健全完善养老服务体系实现“老有所养”

万达稳坐最强包租公，万达2022年收租超500亿租金收缴率100%

12月房价数据出炉！北京二手房价环比下跌0.4%

浙商财险总经理悬空6年终补缺，偿付能力数据不真实遭监

中消协对46款充电数据线比较试验，仅14款安全

NASA公布数据：2022年的全球温度异常情况有多严重？

5G与AI赋能石化企业数字化智能工厂系统建设及分步实施

滴滴出行：即日起恢复新用户注册

中国式现代化的圳治样本｜宝安交通攻坚首年，成效绝了

不止中国！美用户购买iPhone14意愿降低，网友：信号不如小米

苹果即将推出新 iOS 16 系统，修复 iPhone 14 Pro 绿条

Transformer再胜Diffusion！谷歌文本-图像生成模型效率