知识图谱介绍及其应用价值

人工智能本质是解决生产力升级的问题,人工智能走入产业后,可以分为感知智能、认知智能和行为智能,后两者更与生产力相对应,NLP和知识图谱是发展认知智能的基础。知识图谱,指使用半自动和自动化的方法从多种渠道的数据源对数据进行搜集,处理,加工形成的众多实体与关系的图谱。

知识图谱一般分为通用型知识图谱和企业知识图谱;通用型知识图谱可以帮助知识的梳理,关联,展示。以结构化/半结构化数据为主,知识图谱搭建自动化程度高。目前被维基百科,百度百科等知识库 广泛运用,面向普通用户。企业知识图谱,从各个行业领域的非结构化和结构化数据中提炼,能够有效帮助企业活用大数据,挖 掘大数据背后隐藏的巨大价值,实现信息化与数字化的知识体系构建,知识推理,知识传承。面向行业领域专业用户。

1. 知识图谱的数据来源

结构化和半结构化数据的抽取是搭建基础,非结构化数据抽取的发展将拓宽知识图谱的应用边际。

知识抽取是搭建知识图谱过程中至关重要的一环,也是目前评判知识图谱优劣性的标准之一。知识抽取所处理的信息往往是明确的事实性信息,信息源通常分为已有关联数据库的结构化数据、如表格和列表类的半结构化数据,以及如TXT格式的文本类非结构化数据,而文本类非结构化数据需要通过自然语言处理的相关技术进行知识抽取,所有数据最终都要通过处理转化为标准数据供图谱使用。随着生物识别和物体识别等AI技术的应用,指纹库、人脸库、车辆库等数据库逐步建立,对于非结构化数据的知识抽取将不再局限于文本,所搭建的知识图谱维度将会更丰富,应用场景更加垂直下沉。

知识图谱介绍及其应用价值

(图片来源艾瑞报告)

2. 知识图谱结构

知识图谱从逻辑上可以分为概念层和数据层,数据层指以三元组为表现形式的客观事实集合,而概念层是它的“上层建筑”,是经过积累沉淀的知识集合。建设中以本体模型和实体数据库为核心,根据二者的建设顺序又分为先定义本体和数据规范,再抽取数据的“自顶向下型”和先抽取实体数据,再逐层构建本体的“自底向上型”两种模式,前者适用于场景较为固定,存在可量化行业逻辑的领域,如金融、医疗、法律等;后者适用于新拓展的,有大量数据积累,行业逻辑难以直接展现的领域。总体而言,搭建知识图谱从数据源开始,经历了知识抽取、知识融合、知识加工等步骤。原始的数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合,通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合,最终形成完整形态上的知识图谱。

知识图谱介绍及其应用价值

(图片来源艾瑞报告)

3. 知识图谱的应用

阿里巴巴搭建了一种新的电商知识图谱,将用户需求显式地表达成图中的节点,构建一个以用户需求节点为中心的概念图谱,链接用户需求、知识、常识、商品和内容的大规模语义网络:阿里巴巴电商认知图谱( Alibaba E-commerce Cognitive Concept Net ),简称AliCoCo。AliCoCo 能为电商领域的用户理解、知识理解、商品和内容理解提供统一的数据基础。

目前,AliCoCo 已经基本完成了1.0 版本的建设,共包含2.8m 的原子概念,5.3m 的电商概念,超过千亿级别的关系。淘宝天猫上超过98% 的商品均已纳入到AliCoCo 的体系之中,平均每个商品关联了14 个原子概念和135 个电商概念。通过对用户需求的统计,相较于之前的商品管理体系,AliCoCo 对于搜索query 中用户需求的覆盖从35%提升到了75%。AliCoCo 已经支持了阿里巴巴集团核心电商的多个业务应用,这里我们主要介绍在电商搜索和推荐上已经落地的、正在进行的,以及将要进行的一些应用。

知识图谱介绍及其应用价值

(图片来源阿里云开发社区)

展开阅读全文

页面更新:2024-05-30

标签:图谱   知识   阿里巴巴   本体   认知   实体   概念   需求   来源   领域   价值   智能   商品   数据   数码   用户   行业

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top