从碎片化数据到全面知识网络:知识图谱的构建与应用

认识知识图谱

知识图谱概述

知识图谱本质上是语义网络的知识库,可以简单地把知识图谱理解成多关系图。用于迅速描述物理世界中的概念及及相互关系。

知识图谱由节点和(连接不同节点的)边构成,知识图谱中的每个节点代表该主题内一个实体(entity)或概念(class),边代表相连实体或概念间的语义关系(relation)。实体的属性代表节点相关的描述信息。

图片来源网络

知识图谱通常会把客观事物、事物关系和对事物的描述的抽象为实体、关系、实体属性概念转为机器可理解的图结构数据。

两个节点及它们之间的关系形成一条知识,作为知识图谱最小基础单元。每条知识表示为一个SPO三元组(Subject-Predicate-Object),即主语、谓语、宾语。其最接近于人的自然语言的数据模型,而图的信息组织方式又更加接近于人脑的记忆存储方式。

如上图中Tony、Rose、Jim三个人作为知识图谱的实体,每个人职业(开发工程师、测试工程师等)为该实体的属性,他们之间的连线来表述关系(如兄妹关系、同事关系、朋友关系等),即为知识图谱的边关系。通过这样的抽象映射,我们能很快速的得到:Tony是大数据开发工程师,他有一个叫Jim朋友,Tony是Rose的哥哥等知识信息。


知识图谱的构建

知识图谱构建主要步骤分为知识汇聚、知识抽取、知识建模、知识映射、知识融合、知识存储、知识挖掘,从而把碎片化知识整合形成图谱库,提供上层知识服务应用。

知识图谱构建主要流程

借用ORC、nlp等技术,使用大数据套件抽取作业,把结构化、半结构化、非结构化数据,进行清洗、转化变为规范结构化数据存储到数据源。

从各种类型的数据源中提取出实体、属性以及实体间的相互关系。

根据抽取信息对现实生活中实体、属性和其逻辑关系概念的抽象,进行本体的知识表达建模。

通过数据映射关系配置,把规范结构化数据映射到本体,建立起与数据源联系,以便后续转换为图结构存储。

随着业务数据不断产生,源源不断把其中的知识汇聚过来,并根据知识映射规则存入到图数据库,形成知识主题库。

在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等,对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到图库中,以确保图库的质量。

除此之外,利用高级机器学习算法基于逻辑规则、图结构推理、分布式学习推演、神经网络学习,根据已知知识信息推理出未知、预见性的知识。

最后,根据已构建的知识图谱库,根据AI算法、图算法等建立算法库,形成图服务API,提供上层知识分析、知识检索等应用。


知识图谱应用场景

知识图谱作为数据信息知识处理的重要工具,在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰富的应用价值。

图谱已被广泛运用于金融、医疗、政务、能源与工业、公安等领域。在各领域中主要体现能力如下:

能力一:异构知识处理,进行信息结构化、可视化、服务化

能力二:关系分析、追溯源头

能力三:使能机器语言认知

能力四:画像分析、增强标签能力

能力五:提供行业背景知识、做知识引导,解决问题


北明数科-知识图谱

北明数科结合项目优秀经验,沉淀了一套成熟的知识图谱构建产品。

主要模块:本体管理--图谱管理--知识抽取--知识映射--知识融合--知识存储--知识模型--知识服务--图谱可视化套件,还包括算法库、知识监控等功能。

1.产品简介

采用分布式服务架构和分布式图计算引擎,实现行业级的知识图谱构建和分析,从可视化的知识建模、多源异构的知识提取和知识融合、复杂的知识推理等角度,快速、精准从知识图谱中提取出有价值的信息,快速生成成熟的解决方案。

产品架构图

知识处理按架构自下而上分为四层:

(1)知识内容层,数据资源提供方的原始数据,可以是产品、技术、问题、风险等各类知识内容源;

(2)知识元数据层,通过基础支撑平台,对于各类知识基于分类法及知识特征的结构化要素定义,形成知识资源池。

(3)语义关系层,通过知识图谱能力,对于元素间语义关系定义,可以实现跨多种主题知识的内容关联和穿透;

(4)知识应用层,提供智能搜索、知识聚合、智能推荐、关系推理等前端应用功能。

2.产品功能

知识汇聚是将各个业务系统的非结构化、结构化的数据通过实时或者离线采集方式不同数据源数据采集到数据中心,并进行清洗、转化变为规范数据格式存储到数据源中。

帮助用户完成知识汇聚工作,解决知识异构问题

本模块完成知识建模过程,从各种类型的数据源中提取出实体、属性以及实体间的相互关系。根据抽取信息进行分析,建立本体模型。

本体模型构建

本模块进行图谱模型构建,完成关联本体、知识映射、知识融合、知识抽取动作。主要流程如下:

本体选择

知识映射

知识抽取

知识融合规则

知识融合算法

提供不同类型的知识存储源。

支持图数据库与RDF图存储结构,满足大数据混合存储结构

平台针对于知识图谱分析提供路径分析、关系分析、集群分析、中心度分析、统计分析等大类,50多小类的图分析算法服务。

图谱算法分析

图谱可视化是基于复杂网络的可视化形式与分析手段,对各种图数据,直观地展示各实体间发生的事件关系以及实体的特征信息,展示各个实体之间的关系网,并提供相关知识服务分析算法。

图谱可视化套件

提供在线可视化的服务开发能力,提供知识图数据API服务、图分析算法服务,通过服务构建、服务发布、服务注册、服务订阅、服务控制流程,形成数据服务集市,快速响应业务侧的图谱知识服务需求。

3.产品案例

某城市社会关系分析平台

本案例构建大数据资源池知识图谱平台,对城市各社会主体及周边事物的治理融合,清晰地展示和挖掘。面向各智慧应用和部门,为人口信息挖掘、政务服务优化决策等提供支撑能力。

城市人口知识档案

事件材料知识库

某人社局人社知识库

案例简介:本项目基于北明数科知识图谱能力,为某人社局提供以下三大方面服务


总述

在目前,知识图谱已经成为了知识处理与分析过程中的重要一环,国内部分企业已经开始架构属于自己企业体系的知识图谱,在信息整合与数据分析中快人一步。

如果看到这里你还心存疑问:为什么自家企业需要知识图谱?

那就以最简短的例子为证:智能手机的普及淘汰了一批不会使用它的人,那么未来的知识图谱也会淘汰一批没有抓住它的企业。

北明数科拥有丰富的知识图谱实施经验,在智慧城市、智慧社区、政府企业项目都经历过打磨,为客户进行知识主题库构建提供重要的支撑能力。

展开阅读全文

页面更新:2024-04-11

标签:图谱   知识   数据   本体   算法   碎片   实体   模型   能力   关系   信息   网络

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top