KAIST团队6月发布新库!整合三类数据库,AI准确率提78%速超20倍


人工智能的"幻觉"问题,本质上是一个数据问题。

当一个企业级AI助手被问到"去年签署的合同中,与A公司相关的条款是否导致了供货问题",它需要同时理解文件内容的语义、合同各方之间的关系网络,以及日期和类型的结构化筛选条件。而现有的数据库技术,没有一种能同时做好这三件事。结果就是AI在信息不足的情况下"脑补"答案,输出一本正经的错误。

韩国科学技术院(KAIST)的研究团队在今年6月于ACM SIGMOD 2026会议上发表的成果,直接从底层数据库架构入手,给出了一个系统性的解决方案:将三种数据库合并成一个,让AI在回答问题之前,真正把数据看清楚。


AkasicDB 将向量、图和关系存储集成到单个数据库管理系统 (DBMS) 中,并通过统一的查询规划器和遍历-连接-相似性运算符,将跨三种数据模型的查询处理为单个执行计划。这与传统方法(通常分别操作多个数据库)截然不同。

三种数据库的墙,是幻觉的根源

要理解这项研究,先得理解现有企业AI系统为何容易出错。

企业里的数据从来不是整整齐齐存在一个地方的。非结构化文档,比如合同、报告、邮件,被存放在向量数据库里,系统把文字转化成数值向量,通过计算相似度来检索相关内容。实体之间的关系,比如谁和谁签了合同、哪家公司供货给哪条生产线,被存放在图数据库里。而日期、金额、产品类别这类结构化信息,则躺在传统关系型数据库的表格里。

三种数据库,三套系统,三套查询语言。当AI需要同时调用这三种信息时,工程师必须分别查询、在应用层手动拼接结果,过程繁琐,延迟高,而且拼接过程中的信息损耗往往就是幻觉的直接来源。AI没拿到完整的证据,只能靠"猜"。

KAIST计算机学院金敏洙教授领导的团队,与学院创业公司GraphAI合作开发的AkasicDB,把这堵墙拆掉了。


AkasicDB将向量数据库、图数据库和关系数据库整合进同一个数据库管理系统,并配备一个统一的查询规划器。用户可以用单一的SQL/GQL语句,同时发出向量相似性搜索、图关系遍历和结构化条件过滤的请求,系统将其作为一个统一的执行计划来处理,而不是三个独立任务的结果拼接。

在此基础上,团队开发了名为"Omni RAG"的新型检索增强生成方法。RAG是当前企业AI的核心技术路径,其基本逻辑是先检索相关信息再生成回答,让AI有据可查而非凭空发挥。Omni RAG的创新在于,它让这个"检索"环节真正覆盖了语义、关系和结构三个维度,而非只有语义一个维度。

数字说话:78%和20倍意味着什么

实验数据给出了相当直观的答案。


与传统RAG相比,Omni RAG将AI回答的准确率提升了高达78%,这意味着原本每100个问题里约有一半答错或答偏的场景,现在错误数量可以减少近四分之三。在速度方面,原本需要21.3秒才能完成的复杂查询,在AkasicDB中可以在不到1秒内完成,性能提升超过20倍。

速度提升的原因不难理解:统一执行计划避免了大量中间结果的生成和跨系统数据传输,减少了提交给大语言模型的冗余信息量,处理路径更短,噪声更少,模型需要"消化"的内容也更精准。

金敏洙教授表示,AkasicDB的目标应用场景是国防、制造、金融、法律、科学和技术等对数据准确性要求极高的领域。这些领域的共同特点是,一个错误的AI输出可能带来真实的法律风险、财务损失甚至安全隐患,幻觉在这里不是体验问题,而是合规问题。

这项研究的意义在于,它没有试图在大语言模型本身上修补幻觉,而是从数据供给端根治问题:给AI喂入更完整、更精准、更有层次的证据,模型自然就少了"脑补"的空间。数据基础设施的架构升级,或许才是企业AI走向可信赖的最短路径。

展开阅读全文

更新时间:2026-06-26

标签:科技   准确率   团队   数据库   向量   数据   关系   幻觉   语义   系统   模型   合同   相似性

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034903号

Top