第11章 知识图谱及其应用


欢迎来到AI产品经理从0到1研习之旅。


在《第3章 智能搜索技术》一文中,我们提到了“基于知识图谱的知识推理方法”。随着我的研习推进,发现知识图谱这个主题值得进一步展开。是为本文。

图源:美团技术团队


引言

知识图谱是AI领域的一个重要分支,它结合了语义技术、数据挖掘和图论等多个学科的研究成果,用以构建跨领域知识的关联网络,对于提高信息检索的准确性和丰富用户体验等方面具有重要价值。

本文将会相对系统围绕知识图谱的关键概念、技术、应用及实践进行初步的研习分享,旨在为将来的深入研究和实际应用奠定认知基础。


01

基本概念与原理

知识图谱是什么

想象一下,你正在使用Google搜索"托马斯·爱迪生",你不仅得到了关于他的基本信息,还看到了他的发明、与他相关的重要人物和事件的链接。这就是知识图谱的魔力!简单来说,知识图谱就像是一个巨大的网络,将世界上的各种信息以图形的方式连接起来,让我们能够快速找到相关的信息并看到它们之间是如何相互联系的。

“知识图谱(Knowledge Graph)”的概念由Google公司在2012年提出,也称为语义网络,表示现实世界实体的网络,并说明它们之间的关系。这些信息通常存储在图形数据库中,并以图形结构直观呈现出来,即为知识“图”。

上面这张图片示意了知识图谱的构建和应用过程。这个过程可以分为两个部分:知识图谱的构建和知识图谱的应用。在知识图谱的构建过程中,首先从文档网站中获取信息,然后使用这些信息构造知识图谱,形成一个结构化的知识网络。知识图谱应用过程则通过查询知识图谱,获得所需的信息,并将结果展示在网页上。这个过程涉及到对知识图谱的查询、推理和使用,以便更好地理解和利用知识,提供更有价值的信息和见解。

这些内容将会在我们接下来的章节中详细展开。

核心组成元素

"本体"(Ontology)在知识图谱中扮演着非常核心的角色,它是知识图谱的基础构架之一。本体定义了一组表示领域知识的概念及概念之间的关系,可以看作是一种规范化的框架,用于描述和分类实体、关系和属性。换句话说,本体为知识图谱提供了一套共享的、通用的词汇表和规则,以确保信息的一致性和可互操作性在知识图谱中,通常它都会有这样的一些核心要素(也称三元组):

实体:在知识图谱中,实体通常指代现实世界或想象世界中的对象、概念或事物,如人、地点、组织、产品等。在本体中,实体对应的是"类"(Classes)的概念,即一组具有相似特征的事物的集合。在前面的例子中,"托马斯·爱迪生"就是一个实体。

关系:关系描述了实体之间的联系,如“属于”、“朋友”、“位于”等。在本体中,关系对应于"属性"(Properties)的概念,它可以是对象属性(Object Properties,连接两个实体)或数据属性(Data Properties,连接实体和数据值)。关系就是连接实体的边,说明实体之间的关系。例如,爱迪生与"电灯泡"的发明之间就存在着"发明者"的关系。

属性:属性是附加在实体上的信息片段,用于描述实体的特征,如年龄、颜色、大小等。在本体的语境中,属性一词通常指数据属性,用于描述实体的某些特定的特性或数值信息。例如爱迪生的出生日期、国籍等就可以作为属性。

举例说明想象一下你的朋友圈,你和你的朋友们是节点,你们之间的友谊就是连接你们的边。现在,把这个概念扩展到任何类型的信息上 —— 书籍、电影、历史人物、科学概念等等,都可以是节点,而它们之间的关系(如作者、导演、相关事件等)就构成了连接它们的边。这样,就形成了一个巨大的、可以查询和探索的信息网络。

通过这种方式,知识图谱不仅帮助我们找到信息,还让我们看到信息之间的联系,就像是在探索一个无限相互关联的知识宇宙!

最直观的知识图谱就是类似于爱企查、企查查、天眼查等平台上的“企业关系图谱”了:


02

关键技术与工具

接下来,让我们一起探索知识图谱中的一些关键技术和工具。这一部分比较偏“技术”,如果不感兴趣可以跳过。

语义网技术

想象一下,如果互联网是一个巨大的图书馆,那么语义网技术就是它的图书管理员。该技术帮助我们给互联网上的信息打上易于理解的标签,让计算机能够"理解"这些信息的含义。

RDF(资源描述框架):它像是给互联网上的每个信息片段贴上了一张标签,告诉我们这个信息是什么,它和其他信息有什么关系。想象你在看一张电影海报,RDF就能告诉计算机这是一部电影,导演是谁,主演有谁等信息。

OWL(Web本体语言):如果说RDF是给信息贴标签,那OWL就是制定这些标签的规则,让我们可以准确地描述不同事物之间的复杂关系,就像是定义了一本家族谱,清晰地记录了家族中每个人的关系。

SPARQL(SPARQL协议和RDF查询语言):这是一种强大的查询语言,让我们能够在这个巨大的信息图书馆中找到我们想要的书籍。就像是一个高级搜索引擎,你可以告诉它你想找所有由某个导演执导的电影,它就能给你一个完整的列表。

图数据库技术

在知识图谱的世界里,图数据库扮演着至关重要的角色,它们专为处理图形数据而设计,能够有效地存储和查询复杂的网络结构。一些主流的图数据库包括Neo4j、Microsoft Azure Cosmos DB、Virtuoso、ArangoDB、OrientDB、Amazon Neptune、JanusGraph等。其中,Neo4j已经成为世界上部署最广泛的图数据平台,遍布全球的各个行业。

图数据库与传统的关系型数据库相比,在处理复杂关系数据、实现高效查询和提供灵活的数据模型方面具有明显优势,特别适合于需要深度分析数据关系的应用场景。根据全球领先的数据库排名网站DB-Engines.com的数据,自2013年以来,图形数据库一直是增长最快的数据库类别。

图数据库就像是一个超级大脑,它专门用来存储和管理复杂的网络关系。Neo4j是其中一个非常流行的图数据库,它能够高效地存储大量的节点(实体)和边(关系),并快速查询这些复杂关系之间的模式。

自然语言处理(NLP)

自然语言处理(NLP)技术就像是一个翻译官,它帮助计算机理解人类的语言。在知识图谱的构建过程中,NLP技术可以从文本数据中提取出有价值的信息,比如从法院判决文书中提取出相应的案件知识图谱。

假设有一份判决文书描述了一起盗窃案件,其中包含了被告人的信息、案发时间、案发地点、被盗物品等信息。通过NLP技术,我们可以从文书中提取这些信息,并构建一个知识图谱,图谱中包含了“被告人”、“案发时间”、“案发地点”等节点,以及这些节点之间的关系,如“被告人”与“案发地点”的“作案地点”关系,以及“被告人”与“被盗物品”的“盗窃”关系等。这样的知识图谱不仅能够直观地展示案件的基本情况,还能为后续的案件分析、相似案件检索等提供支持。

借助自然语言处理技术,从法院判决书中将这些信息抽取出来:

将抽取的实体和实体属性导入Neo4j图数据库,按照实体间的关系建立知识图谱:

通过这些技术和工具的支持,我们就可以将非结构化的、大量的、分散的信息中提取出“三元组”信息,构建一个知识丰富、关系密切的知识图谱。

03

应用场景与价值

知识图谱在多个行业和场景中都有着广泛的应用,例如搜索、推荐、问答机器人、智能助理等。

让我们来看一些典型的应用场景及案例。

搜索引擎优化

也就是在支持语义搜索与推荐方面,搜索引擎使用知识图谱来建立用户搜索输入的关键词与知识图谱中的实体之间的映射关系,为用户推荐满足用户需求的结构化信息内容,而不是互联网网页。这样可以增强搜索结果的相关性和丰富性,提供更直观的答案和信息。

Google 知识图谱是最著名的例子之一,它通过理解用户查询的实体和它们之间的关系,提供了结构化的搜索结果,如名人的简介、地点的信息等。比如我们搜索“贾玲”,会在右侧看到知识图谱相关展示:

搜索作为外卖核心流量入口,承载了用户明确的外卖需求。用户通过输入关键词,进行菜品检索。在实际使用中,从搜索的关键词类型看,可能是某个具体的菜品,也可能是某种食材、某种菜系。

在美食知识图谱中,图谱标签的高准确率和高覆盖,有助于提升搜索入口的用户体验。搜索引擎对查询请求的处理不再拘泥于字面本身,而是抽象出其中的实体、查询意图,通过知识图谱直接提供用户需要的答案,而不只是提供网页排序结果,更精准地满足用户的需求。比如下图中用户输入“减肥”,得到的首位推荐是麦小六健康餐就比较符合预期,而不是简单地按关键字来匹配:

因此,搜索和推荐通常都是“一体”的,所以我们接着说说推荐系统。

推荐系统

如果对推荐系统有所了解,可能听得更多的是协同过滤之类的方法。但其实推荐系统利用知识图谱理解用户兴趣和内容属性之间的复杂关系,从而提供更个性化的推荐也已经很流行了。Netflix就使用知识图谱来分析用户的观看历史和偏好,以提供个性化的电影和电视节目推荐。

关于Netflix的更多内容,可参见此前的文章《人工智能时代,产品经理如何调整软件产品策略——结合Netflix 的AI应用为例》。

以电影推荐为例,一个用户看过的电影可以靠知识图谱中的实体连接到其他电影,通过合理推断,可以认为用户也会喜欢与该电影紧密连接的电影,因此从电影的属性和特征出发,知识图谱可以帮助我们合理地推测用户的兴趣。

新闻推荐也是同理,可以通过用户阅读过的新闻实体,利用知识图谱重复扩展并连接到另一条新闻。虽然下图中上下两条新闻字面上没有重合,但可以通过常识知识图谱进行判断关联非常紧密得以向用户推荐和呈现:

在美团/大众点评的APP中,基于知识图谱的搜索结果,不仅具有精准性,还具有多样性,例如:当用户在美食类目下搜索关键词“鱼”,通过图谱可以认知到用户的搜索词是“鱼”这种“食材”。因此搜索的结果不仅有“糖醋鱼”、“清蒸鱼”这样的精准结果,还有“赛螃蟹”这样以鱼肉作为主食材的菜品,大大增加了搜索结果的多样性,提升用户的搜索体验。

并且对于每一个推荐的商家,能够基于知识图谱找到用户最关心的因素,从而生成“千人千面”的推荐理由,例如在浏览到大董烤鸭店的时候,偏好“无肉不欢”的用户A看到的推荐理由是“大董的烤鸭名不虚传”,而偏好“环境优雅”的用户B,看到的推荐理由就是“环境小资,有舞台表演”,不仅让搜索结果更具有解释性,同时也能吸引不同偏好的用户进入商家。:

知识管理

企业可以使用知识图谱来组织和管理内部的知识资源,包括文档、专业知识和业务流程等。在这个基础上,就可以这样应用:

1. 增强搜索(又绕回来了。。。)

通过知识图谱,企业可以提供更加智能和语义化的搜索功能。与传统关键字搜索相比,基于知识图谱的搜索能够理解查询的上下文、实体及其属性,从而返回更准确和相关的搜索结果。例如,员工在搜索“市场分析报告”时,系统不仅返回包含这些关键词的文档,还能根据用户的部门、之前的搜索行为和文档中的实体关系,推荐最相关的报告。

2. 自助式问答

知识图谱可以支持构建自助式问答系统,员工可以像提问一个专家一样与系统交互。系统利用知识图谱中的实体和关系,理解提问的意图,并从图谱中检索和推理出答案。例如,员工可能会问:“去年第四季度最受欢迎的产品是什么?”知识图谱能够解析这个问题,识别“去年第四季度”和“最受欢迎的产品”为关键实体和概念,并返回正确的答案。

公检法等司法机构可以通过以下方式应用知识图谱来提高其工作效率和决策质量:

法律文献管理:知识图谱可以帮助组织和管理大量的法律文献,包括法律、法规、案例等。通过构建法律概念、条款和案例之间的关系,司法工作者可以快速找到相关的法律依据和判例支持。

案件分析:知识图谱能够分析案件之间的相似性和联系,帮助法官和检察官深入理解案件背景,发现案件之间可能的关联性。例如,通过比较不同案件中的犯罪手法、动机、参与者等信息,可以揭示潜在的犯罪网络。

法律咨询与自助服务:通过构建包含法律知识的知识图谱,公检法机构可以提供智能的法律咨询服务。公众可以通过自然语言提出咨询问题,系统通过知识图谱检索和推理给出相关的法律信息和建议。

证据管理在复杂的案件中,涉及的证据数量可能非常庞大,知识图谱可以帮助整理和管理证据材料。通过建立证据与案件事实、相关人员、法律条款之间的关系,可以清晰地展示证据链,支持案件审理和裁决过程。

大数据分析与决策支持

知识图谱通过语义链接帮助理解大数据,获得对大数据的洞察,提供决策支持,可应用于各个行业,例如股票投研情报分析,通过抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息构建公司的知识图谱,进而做更深层次的分析和更好的投资决策。

同花顺知识图谱团队,主要面向的业务是:智能对话、推荐系统、搜索引擎、投资策略以及多模融合、股票亮点、投顾投教这样的一些业务

比如同花顺知识图谱团队,就构建了多种图谱。
(1)产业链图谱:

(2)供应链图谱:

(3)人物关系图谱:

(4)企业图谱:

而在银行信贷业务中,知识图谱则可以用来处理反欺诈。团伙性欺诈一般涉及多个银行账号、客户和设备协同作案,在单笔申请、交易或者单个账户视角并不能看出任何风险,但是在建立多维度、多属性关联后(如客户交易关系、设备账号关系、担保关系、客户账号关系等),欺诈团伙往往呈现出明显的异常模式子图(例如共用设备、共用Wi-Fi),并且已知的风险可通过关联关系进行传播扩散,关联网络能够发现更多风险关系和节点

浙商银行就综合应用知识图谱、人工智能、大数据等技术推出金融知识图谱平台,基于工商、监管、征信、舆情等外部数据以及行内业务数据,自主构建了涵盖自然人、公司客户、个人账户及集团关系、股权关系、担保关系、资金关系等20多种实体类型和关系类型的金融知识图谱,打造了基于知识图谱的大数据风控体系:

知识图谱还有很多细分的应用场景(本文所分享的只是冰山一角),感兴趣的小伙伴可以结合自身的行业或工作领域(如医疗健康、汽车销售、政务服务、税务稽查、)搜索、了解。总而言之,知识图谱可以将分散的信息连接成有意义的知识网络,从而支持决策制定、增强用户体验和推动创新。

04

构建与维护知识图谱的方法论

知识图谱的构建和应用本身是一个比较复杂的工程,但是从初步认知的角度,我们了解基本的实施步骤和方法即可,大致如下图所示:

假设我们的目标是为一家大型零售企业构建一个知识图谱,以优化其产品推荐系统。以此为例,让我们从AI产品经理的视角来初探一番。

确定使用场景和目标

首先,作为AI产品经理的我们需要确定知识图谱的使用场景和目标。通过

与利益相关者沟通,了解推荐系统的目标和预期效果,明确推荐系统应解决的问题,如提高销售转化率、增加用户满意度等,并设定可量化的目标。在此基础上,我们还需要确定涵盖的知识领域,如产品信息、用户行为、购买历史、客户服务记录等。

收集和整理数据

收集和整理数据是构建知识图谱的基础。AI产品经理需要确定数据来源,包括结构化数据(如数据库)和非结构化数据(如文本、图像和视频),

内部数据(如产品目录、销售记录)和外部数据(如市场趋势、社交媒体数据),并确保数据的准确性、完整性和可靠性。

对于一家大型零售企业,我们可能需要从以下数据源中收集数据:

在美团零售业务中,商品属性挖掘的源数据包括商品标题、商品图片和半结构化数据三大类型。例如“乐事黄瓜味薯片”,需要挖掘它对应的品牌、品类、口味、包装规格、标签、产地以及用户评论特色等属性,才能在商品搜索、推荐等场景中精准触达用户。

实体识别和关系抽取

实体识别涉及从文本或数据中识别实体,如人、地点、组织、事件等。关系抽取涉及从文本或数据中识别实体之间的关系。对于一家大型零售企业,我们可以关注以下实体和关系:

在这个过程中,AI产品经理需要与数据科学家合作,从文本中提取有用信息,并从用户行为数据中挖掘洞察。确保提取的知识准确反映用户偏好和产品特性,避免偏见和误解。我们可以使用自然语言处理(NLP)技术和机器学习(ML)技术,如命名实体识别(NER)、依存分析、谓词-实体提取、关系抽取和图神经网络(GNN)等,来实现实体识别和关系抽取。还是以美团零售业务中的情形为例,对于商品标题“乐事黄瓜薯片”,目标是理解标题文本序列中各个成分,如乐事对应品牌,黄瓜对应口味,薯片是品类,因此可以使用命名实体识别(NER)模型进行商品标题解析。

当然商品标题解析本身也有一定的挑战。不过现在有了GPT、GLM、文心大模型这样的LLM,实体识别和关系抽取变得更加容易了。

知识图谱构建和可视化(建模)

在这一步骤中,可能需要AI产品经理来定义知识图谱的结构,包括实体、属性和关系的模型,并与工程师/数据科学家确定模型应能充分反映业务逻辑,灵活适应未来需求的变化。根据实体和关系,我们可以构建知识图谱,并将其可视化。我们可以使用图数据库(如Neo4j、ArangoDB、JanusGraph等)和图可视化工具(如Gephi、Cytoscape、NetworkX等)来构建和可视化知识图谱。在这个过程中我们还需要注意知识融合,以解决多源异构数据整合问题,即从不同来源、不同结构但表达统一实体或概念的数据融合为一个实体或概念。我们可以将知识图谱构建为多层结构,如产品层、客户层、订单层、渠道层、供应链层等,以模拟零售企业的业务流程和数据流。例如美团零售商品知识图谱体系,就结合了其零售业务的特点,具有多层级、多维度、跨业务的特点:

知识图谱的评估和优化

我们可以使用度量(如精度、召回率和F1分数)来评估知识图谱的质量和有用性。我们可以监测知识图谱的使用情况,并根据用户反馈和业务需求进行调整和优化。在这一步骤中,AI产品经理需要与数据科学家、软件工程师和其他团队成员合作,确保知识图谱的数据质量、完整性、准确性、可用性和可扩展性,并采取适当的措施来评估和优化知识图谱。美团在零售业务中的医药领域,就采用智能模型和专家知识结合的方式来构建和优化药品知识图谱,以更“合理且准确”第响应用户,例如搜索“头疼”时通过结构化的知识图谱,能知道什么药品是有止疼功效的:

而当用户搜索“可爱多草莓”“黄瓜薯片”时,需要依赖图谱的常识知识来理解用户真正需求是冰淇淋和薯片,而不是草莓和黄瓜。

知识图谱的评估和优化涉及以下几个方面:

1. 数据质量评估:

确保数据的准确性、完整性和一致性是构建知识图谱的基础。我们可以使用数据清洗和数据标准化技术来提高数据的质量。我们还可以使用数据探索和数据可视化技术来识别数据集中的模式和异常值,并采取适当的措施来改进数据质量。

2. 知识图谱完整性评估:

我们需要评估知识图谱是否包含所有相关实体和关系,以及这些实体和关系是否被完整地捕捉。我们可以使用度量,如实体覆盖率、关系覆盖率和连通分量分析,来评估知识图谱的完整性。

3. 知识图谱准确性评估:

我们需要评估知识图谱中实体和关系的准确性。我们可以使用手动或自动方法来评估知识图谱的准确性。手动方法涉及人工审查知识图谱中的实体和关系,并确定它们是否准确。自动方法涉及使用机器学习模型来预测实体和关系的准确性,并将其与实际值进行比较。

4. 知识图谱可用性评估:

我们需要评估知识图谱是否易于使用和理解。我们可以使用度量,如查询响应时间、查询成功率和用户满意度调查,来评估知识图谱的可用性。

5. 知识图谱可扩展性评估:

我们需要评估知识图谱是否可以扩展以支持新的实体和关系。我们可以使用度量,如添加新实体和关系的时间和成本,来评估知识图谱的可扩展性。

基于评估结果和用户反馈,我们需要采取措施来对知识图谱的模型进行优化。

知识应用与维护

在这个阶段,我们需要将知识图谱集成到推荐系统,监测系统性能,定期更新和优化知识图谱。我们需要确保推荐系统的效果与业务目标一致,持续收集用户反馈进行迭代。

通过分析用户的购买历史、产品评价和市场趋势,知识图谱能够为每个用户提供更加个性化和精准的产品推荐。此外,客户服务团队可以利用知识图谱快速响应客户咨询,提供更加准确和有用的信息。

当然,我们也不是必须自己从0开始完全自主搭建知识图谱的应用,比如华为云就提供了知识图谱的流水线平台,用户无需关注底层实现细节通过专门设计的知识图谱构建流水线,可以自定义图谱构建过程中的各个步骤:

05

写在最后


尽管当下大语言模型(LLM)和AIGC如火如荼,但知识图谱这一相对成熟的技术应用也方兴未艾,并且在未来仍有很大的发展潜力。

对于AI产品经理来说,了解知识图谱及其应用是非常有价值的:
  • 提高产品智能化水平:知识图谱能够将大量分散的数据连接成有意义的知识网络,这为AI产品提供了丰富的背景知识和上下文信息,有助于提高产品的智能化水平,例如在自然语言处理、推荐系统、搜索引擎等领域的应用。
  • 增强用户体验:通过知识图谱,AI产品能够更加准确地理解用户的需求和意图,提供更加个性化和准确的内容或推荐,从而显著提升用户体验。
  • 支持复杂决策和分析:知识图谱的结构化特性使得它成为支持复杂决策和分析的强大工具。AI产品经理可以利用知识图谱进行市场分析、用户行为分析、风险评估等,为产品决策提供数据支持。

知识图谱不仅是一个技术概念,更是一种强大的工具,可以帮助我们在不同领域和场景中实现信息的有效组织、管理和应用。

尽管文章内容已经这么长,但知识图谱相关的很多细节我们都还没有聊到。更多详细内容,可阅读文末参考资料中的文章。我也会在有余力的前提下研习更多的行业实践案例。


以上,就是知识图谱的进一步研习分享。

本期到此结束。

我们下一章再见


如果你觉得我的分享还不错或者对你有帮助,不妨点个关注、在看。

也欢迎你在留言区与我互动。

更多相关文章,请移步公众号“AI产品经理研习与实践”。


参考资料:

  • https://www.ibm.com/cn-zh/topics/knowledge-graph

  • https://towardsdatascience.com/analyze-your-website-with-nlp-and-knowledge-graphs-88e291f6cbf4

  • https://www.huaweicloud.com/product/nlpkg.html

  • https://jns.nju.edu.cn/article/2021/0469-5097/0469-5097-2021-57-6-1053.shtml

  • https://mp.weixin.qq.com/s/hNKa4dbFTBvU-UaBfS1wyw

  • https://mp.weixin.qq.com/s/OmfqCUcE0XglOeWrPFmDPg

  • https://mp.weixin.qq.com/s/LgxxIEMaiaMtc0GIDXGG9g

  • https://mp.weixin.qq.com/s/IGMwIYL3ZYZSckrLNR6ZCg

  • https://mp.weixin.qq.com/s/ArVkSxkP0K-qenkyZd_1nA

  • https://mp.weixin.qq.com/s/3XDwAIzPmasW_rCok5uvPA

  • https://mp.weixin.qq.com/s/P6HXtkvgmGJfVjqZuRiZSw

  • https://tech.meituan.com/2021/09/02/meituan-commodity-nlp-practice.html


展开阅读全文

页面更新:2024-04-17

标签:图谱   知识   实体   属性   关系   数据   用户   产品   技术   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top