避免信息时代的鸡同鸭讲:一文读懂实体对齐技术

大家都知道,在互联网行业黑话中,拉通、对齐,都是非常常见的用语。表明的都是双方对于同一事物的理解要保持一致,这一点非常重要,因为在实际的工作中,如果双方对于同一事物的理解不一致,就会造成非常多的误解和问题。尤其是在项目规模比较大的时候,对于同一事物的一致理解就尤为重要了。

而在信息技术中,同样存在着确定不同信息源的数据对齐问题,毕竟描述一件事情的方法有很多种,而同样的一个词可能代表的也是完全不一样的东西。所以,确定双方描述的是同一个实体,将不同来源的知识进行互补融合,从而形成全面、准确、完整的实体描述,就非常重要了。而这里面涉及的工作就是实体对齐(Entity Alignment),也被称为是实体匹配(Entity Matching)。

实体对齐主要应用在知识图谱和多模态数据检索方向。在前者中,侧重于对于同一个实体的不同描述进行互补统一。在后者中,侧重于不同模态数据描述的同一物体的语义对齐。下面我们来给大家简单介绍一下相关的概念。

一、对齐同一事物的不同描述

近年以来,互联网的快速发展,促使各领域都建立了越来越多的包含互补信息的大规模知识图谱(Knowledge Graph)。网络上语义数据的数量不断增加,而各领域之间如何集成来自各方的独立设计且存在于不同知识图谱中的实体,使得大规模知识图谱之间可以高效协调,就显得尤为重要了。

例如互动百科提到曹操的时候,说他“统一北方”,而在维基百科为“统一的东汉帝国核心地区”。显然这两者指的是一件事,而从描述上来说,不仅对于计算机来说,对于很多历史地理知识不太熟悉的人来说,也很难理解这两者描述的是同一件事。

二、对齐同一名称的不同事物

大家知道,即使是同一名称,描述的同一事物可能也是千差万别的。例如当年帝吧出征的时候,在脸书上留下了大量诸如沙发、板凳、瓜子、方便面之类的名词,有一些老外还非常尽力地去翻译了过来,然后还在讨论到底是什么意思。为什么要说一件家具之类的。所以这就是同一名称对于不同事物的描述,在这些场景中,不仅要对其进行语义对齐,还需要根据上下文、所在场景,针对其描述进行要素抽取,确定其概率,从而确定其真正想表达的意思。

这种对于同一名称的不同理解有着很多搞笑的案例。例如中国军方想要把软件质量体系推广下去。就想做一套系统协助完成相关质量体系认证的信息系统。而这一任务就交给了一个老牌单位做。软件质量体系是个什么东西呢,说白了就是一套确定什么级别的软件应该由什么样的软件团队去做的方法。例如说,你把特斯拉的自动驾驶系统交给几个刚毕业的大专生去做,可能就不太合适。而如何区分这个软件团队的能力,对于甲方而言,却是个很难的事情,毕竟一个老牌大所的名头,派来的一堆层层外包下去的新招大专生,大头兵们也分辨不出来他们能力怎么样对吧。所以对于甲方而言,推行这套质量体系,就非常重要。毕竟像健康码这样,看着公司挺大,最后一上线崩了这样,搞不好要背锅的对吧。

然而那家单位的软件质量体系能力无限接近于0。曾经在疫情初期自己给集团搞了一个健康码结果把一帮子高层领导的身份证号家庭住址等关键信息被人一波拖走,不过好在领导并不知道这个事。

因此负责这个事的人对此也是表面上压迫员工们积极的996,实际上对整个项目一无所知。于是他看到质量两个字先招了个做质量的,但是这个做质量的做得是流水线上的品控,和软件八杆子打不着。于是在跟着996三个月之后和他们团队中别的正常人一样跑了。然后负责人再加主管副所长又胡折腾了一年多,项目还是黄了。

所以可见对同一名称进行对齐,是个多么重要的事情。

三、实体对齐的目标

实体对齐的主要目标就是判断两个或者多个不同信息来源的实体是否指向真实世界中的同一个对象,如果找到多个实体表征同一个对象,则需要在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。

实体过程一般可以分为本体对齐和实例对齐,本体对齐重点关注类、属性和关系,而实例对齐则更加注重真实世界中的具体事物。早期的相关工作主要集中在本体对齐方面,而近几年随着机器学习和深度学习的发展,也逐渐向实例对齐方向发展。

本体对齐相对于实例对齐而言更加笼统概括,而实例对齐对信息的精细要求更多,也更加复杂。

通常来讲,实体对齐的基本流程包括数据预处理、分块、记录、负载均衡、结果评估五个模块。


四、实体对齐中的概念

实体对齐中常见的基本概念包括以下几种。

实体对齐(Entity Alignment):目标是在两个不同知识图谱之间,将相同的实体对应起来

实体解析(Entity Resolution):有时候也叫共指消解(Coherence Resolution),句子中经常会有“他/她/它/这/那”等代词,实体解析负责验证句子中的两个mention是否指向同一个entity,通常是对重复节点的数据删除。

实体消歧(Entity Disambiguation):目标是找到句子里mention对应到知识库(KB,Knowledge Base. 如Wikipedia)或知识图谱(KB, Knowledge Graph. 如YAGO/DBpedia/Freebase)中的entity。实体消岐可以当做是实体链接任务的一部分,重点在于区分候选实体间的不同,并选出最佳匹配(Gold Entity),因此候选实体经常使用别名表(Alias Table)。

实体链接(Entity Linking):在实体消岐基础上加一步实体检索(Entity Retrieval)来生成候选实体,便于应对人工Alias Table覆盖不全的问题。此外完整的步骤应该还包括对无对应entity的mention(NIL)进行处理。

五、常见实体对齐方法

传统的实体对齐方法大多数集中在文本模态中的句法和结构上,尤其是早期的实体对齐和映射技术主要侧重于计算实体之间标签和字符的距离。常见的方法包括:基于相似性计算的实体对齐方法、基于关系推理的实体对齐方法等。

对于传统的实体对齐方法来说,实体的各种属性不同,涉及的领域也不同,很难给出统一的相似度计算函数。而离散的属性信息又忽略了多方面隐含的语义信息,使得对齐效果有限。因此,随着机器学习和深度学习的发展,越来越多的新方法被提了出来,例如基于知识表示学习的实体对齐方法、基于联合知识表示学习的多模态实体对齐方法、通用匹配对齐框架等。

目前,实体对齐任务越来越受到研究者们的关注,但是其中仍然存在着许多问题与不足。随着技术的发展迭代,越来越多的新方法正在不断地涌现。

喜欢本文的话,欢迎关注活在信息时代哦:)

展开阅读全文

页面更新:2024-05-15

标签:实体   语义   本体   图谱   信息时代   实例   事物   方法   知识   数据   技术   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top