干货|潘多拉之盒:个性化推荐算法

“当用户绑定微博登录后的5秒钟之内,系统会为用户建立起一个DNA兴趣图谱。这个图谱类似于一个数学模型,主要根据用户SNS账号上的标签、关注人群、好友、评论/转发、收藏等数据,以及用户的手机、位置、使用时间等数据提取而来。”张一鸣(今日头条创始人)曾在文章《机器替代编辑?》中这样介绍今日头条的推荐算法。

实际上,以Buzzfeed、今日头条、一点资讯为代表的新闻聚合类媒体,已经深刻改变了媒体生产常规和生态。这些技术类公司不像传统媒体,实质上没有“总编辑”一说,而是主要通过技术手段追踪、分析用户行为,从而生产用户感兴趣的内容吸引读者,赢得了广泛的用户群体。由此,传统媒体的编辑分发模式自然受到一定冲击:在全民媒体时代,传统媒体如果在内容上不能出彩,便极容易被愿意写读者喜闻乐见的消息、观点的自媒体慢慢淘汰。

干货|潘多拉之盒:个性化推荐算法

商业模式


当然,这种冲击或许也不过是一种良性的市场竞争。但与此同时,与编辑分发内容相对的“算法分发”这一途径却无疑充满了争议。张一鸣一再重申的“算法没有价值观”这一观点,让《人民日报》也写出文章呼吁《算法盛行更需“总编辑”》。而两年后,在一次人工编辑和机器学习的主题对谈上,骆轶航(PingWest 品玩创始人)更是就此向张一鸣提出了一个尖锐的问题:媒体通过搜集和分析用户数据再来决定生产什么内容,人是不是在被机器异化?

当时,张一鸣的回答绕了个圈子,转而谈到人们面对机器的态度在逐渐转变。他只肯定了与问题相关的一件事——即使是主编行业,在统计哪些组合是用户感兴趣的这一点上,机器无疑做得更好。他认为,机器的本质是“集体的智慧”,是客观的观察用户的行为,不带编辑的主观干预。

可值得注意的是,“集体的智慧”这一用词很妙。的确,剥离机器本身的特质,媒体开始通过个性化推荐系统观察用户,写让用户感兴趣的文章,有什么不对?

干货|潘多拉之盒:个性化推荐算法

HAY!16年度大会中骆轶航与张一鸣的主题对谈



尽管如此,事情反转在今年5月。

今日头条在7号正式成立了专家团,邀请学者、媒体人、公职人员,参与监督其内容和服务。与之前的上线反低俗小程序灵犬不同的是,今日头条在优化其生态的举措中,引入了算法以外的人的监督。这一事件表明,即使技术在不断优化,算法的局限性始终在凸显。

无独有偶,今年11月30日在网信办网络评论工作局发布的《网络评论蓝皮书:中国网络评论发展报告(2018)》中也提到,面对算法分发的一些缺陷,技术“矫正器”开始出现,比如《华尔街日报》推出的“蓝推送、红推送”(Blue Feed,Red Feed),《卫报》的“吹破你的泡泡”(Burst Your Bubble),健形矫姿器(Lumo Lift)的新应用,都在尝试让信息传播摆脱算法推荐的信息失衡状态。

那么事情就有趣了:个性化推荐算法分明是作为解决信息过载的途径之一出现的,究竟是什么因素,使它反而导致了信息失衡?

要想知道问题的答案,首先还得刨根问底,从算法本身入手考虑。

干货|潘多拉之盒:个性化推荐算法

推荐系统通用模型


“个性化推荐算法”只是最终被我们看到的一个技术模块,而如果真正以系统的角度看待,任何的个性化推荐系统通常都是由3个模块所组成的:用户建模模块、推荐对象建模模块、推荐算法模块。其中最重要、最基础的模块是建立个性化的用户模型。建模必须要输入用户信息,这一过程也许不少人都有所经历,一般是以下几种:

1、用户主动输入信息。比如bilibili中用户标注感兴趣程度,知乎、豆瓣初始登陆时的感兴趣的主题、频道,以及在各大搜索引擎中输入的关键词;

2、用户的浏览行为和浏览内容。比如服务器端可较好记录的浏览次数、频率、停留时长,浏览页面时的操作(收藏、保存、复制等),甚至浏览时用户表情的变化等;

3、推荐对象的属性特征。通常考虑对象的内容和用户之间的相似性,比如以产品为对象的淘宝,主要考虑用户对商品的评价,以及商品的品牌、价格、出售时间等。

本质上,这必须是一个动态的建模过程,在计算机中通过拟合来不断分析并且得出动态模型,具体的建模方法主要有遗传算法、基于机器学习的方法,例如TF-IDF、自动聚类、贝叶斯分类器、决策树归纳和神经网络方法等。

干货|潘多拉之盒:个性化推荐算法

用户建模的过程


而我们很容易发现,无论这些方法如何复杂,缺陷是根本不能避免的。

比如,利用日志跟踪用户兴趣偏好存在兴趣偏好走样的问题,尤其过度跟踪用户的历史记录时,会引起用户反感甚至放弃使用——常有人抱怨自己无意中点进一则无关信息,却从此被反复推荐、烦不胜烦的经历:不小心点开了一则低俗信息,就让原本的App彻底变成色魔个性化定制版;在动物新闻里看了看,第二天页面就刷屏动物世界。但是另一方面,如果跟踪不灵敏,用户很快会觉得不感兴趣,打开别的软件。这些是计算机拟合的动态模型本身难以彻底规避的问题。

张一鸣自己也承认这一点:“有次我们工程师开会,说推荐不好,分发量不够,不如我们期望的,我们去估算我们的用户中有多少读者,但总是到不了那个量,机器总是不能抵达它该到的用户。所以我们的工程师去读那个内容,他自己看,我发现他们也看不懂。机器毕竟是统计非常大的数据,如果是非常小众的人群、文字非常隐晦,甚至是反面的意思,机器确实难以突破。”

除了机器自身局限性之外,这种推荐算法的效果还会带来更让人担忧的影响——“过滤泡”与“回音室”。

为说明搜索引擎的推荐偏差,互联网活动家埃利·帕里策发明了“过滤泡”一词。他认为,这种搜索引擎推荐算法会阻碍人们认识真实世界的某些层面,因此称之为“过滤气泡”。 “回音室”也是类似的概念,它们都意味着系统性地忽略部分信息来源的社会结构,但回音室倾向于主动选择忽略外界信息,过滤泡的忽略则也有可能是环境带来的影响。

干货|潘多拉之盒:个性化推荐算法

“过滤泡”


微信朋友圈等社交媒体,可以尤其方便地利用受众表露的偏好、综合与其相似的好友的偏好,为用户推荐内容。这种推荐导致用户获得信息的高度同质化——用户容易沉浸在自己和朋友组成的“回音室”,比原本更不容易看到与自己不一样的意见,并且还在一个小圈子中反复被固化已有的观念。但事实上,不断被强调巩固的很可能只是每个人的偏见,就像气泡一样不符合真实。这非常容易加剧社会价值观的对立和冲突。

比如在国外,偏见往往诞生于政治倾向。在Buzzfeed平台上,拥有相似政治倾向的人(如民主党支持者)会组成相对紧密的关系,并通过在线互动,分享与自身倾向一致的信息。

针对这一现象,英国著名的左倾报纸《卫报》推出了全新的版块“戳破你的泡泡”(Burst Your Bubble)。即使报纸读者大多数偏右,但出于拓宽读者视野的目的,这一版块会每周精选5篇右派文章。栏目负责人詹森·威尔森说,专栏是特地“给那些想要了解保守派想法,但没时间整合的读者”提供的。

干货|潘多拉之盒:个性化推荐算法

Read Across the Aisle界面


此外,一款名为“Read Across the Aisle”的APP还开发了一个“意识形态波谱”功能——在读者阅读界面的下面,有一个类似光谱一样的色条,受众可以看到自己阅读的内容处在光谱的哪个位置。通过色条的参照,可以了解自己是“左”还是“右”。其开发者说:“如果我们能帮助用户接触到更多新观点,让他们成为各自社交媒体气泡圈子里的灯塔,那我们就算是做到了打破观念隔离墙的第一步,让人们更能理解与他们相反的观点和政策,哪怕他们并不认同。”

而“过滤泡”和“回音室”的第二个危害是,一些短期偏好会扰乱算法。比如用户要旅游前搜索景点、或者只是为了社交需求帮朋友转发一些内容,那么这一偏好就会输入为新的用户模型中的一部分。可用户真正感兴趣的其他信息,可能就会被“过滤泡”排挤在外,需要经过很长一段时间后,耗费用户的精力进行重新搜索,模型才会更新恢复。

最后一个副作用则很有趣——算法分配过程中也会形成新的垄断:原本它给予了一些新人机会——只要写的内容让人感兴趣,都有机会被推荐;但一个平台稳定后,必然有一些大V及其团队已经坐拥大量的粉丝、还能保持高频的发布量,实际导致新的内容生产者想要获得流量的成本依然较大。比如微博的头条等,就一度被大量营销号所占据;水军、买粉等行为也无形中侵蚀了这一套以流量为而核心考虑的算法分配体系。

干货|潘多拉之盒:个性化推荐算法

水军的力量


《网络评论蓝皮书:中国网络评论发展报告(2018)》也指出,算法推荐可源源不断地给用户提供所喜欢的信息,但同时也使用户降低了对信息的生产流通以及其中隐藏的利益结构的关注程度。此外,个性化内容推荐与传播在一定程度上削弱了媒体作为培养公民参与公共生活能力和实现公共领域舆论引导的重要价值,忽略了用户信息判断和使用能力方面的多元信息需求;而凭借专业把关人经验和洞察力的编辑分发仍然在筛选、推荐等领域具有质量优势,发挥着对于算法分发的“平衡器”作用,避免用户沉浸在自己和朋友组成的“回音室”中。

因此,在目前二者无法相互取代的前提下,“专业把关+个性化推荐”或可称为最优解。而除了今日头条的蜕变,脸谱网的Fact-Checking(事实审核)机制,将用户举报过多的新闻信息交付机构记者来判、新闻客户端一直强调的在突发新闻时,编辑一定 24小时值守等,都是这一最优解给予的相关实践与启示。

参考资料:

1、《传媒评论》2014年第3期《机器替代编辑?》;

2、王国霞、刘贺平《个性化推荐系统综述》;

3、《网络评论蓝皮书:中国网络评论发展报告(2018)》。

(所有图片均来源于网络)



传媒人学习圈



展开阅读全文

页面更新:2024-04-28

标签:潘多拉   算法   干货   蓝皮书   建模   回音   美文   模块   模型   机器   读者   编辑   今日   媒体   内容   用户   信息   网络

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top