Kaggle大奖斩获其6：用于筛选和分析文献的paperai

近日，一项用于筛选和分析文献的AI工具paperai，冲上了Reddit热榜。原因是：他在CORD-19（COVID-19文献数据集） Kaggle挑战赛中斩获了6项大奖。

主办方准备了一个庞大的文献数据库，包含了20多万篇学术论文，其中有10万余篇是与COVID-19相关的研究。该比赛希望全世界AI专家使用文本挖掘工具，来完成比赛中的各类任务。最后，帮助研究人员能从浩如烟海的文献进行高效检索，为推进COVID-19的研究提供帮助。就是在这样一项比赛中，这个paperai，获得了8项任务大奖中的6项：对于一项工具，在多项任务的普适，这毫无疑问是巨大的成功。那么，这么强势的一项工具，其背后，又是如何运行工作的呢？

简单来说，该模型就是句嵌入索引和带有文章的SQLite数据库的组合。首先，每篇文章都被解析成句子，并与文章元数据一起存储在SQLite中。SQLite本身就具有虚拟表模块FTS5，可以进行全文搜索。这个全文搜索引擎，允许用户在大量文档集合中高效地搜索包含一个或多个搜索词。SQLite的FTS5默认加权方案是tf-idf，此外，它还支持BM25，这使得性能够进一步提高。之后，使用FastText+BM25创建句嵌入索引。BM25是一个词袋检索功能，它根据每个文档中出现的查询词对一组文档进行排序。

最后，开发者选择使用FastText为每个标记检索单词嵌入。为了构建句子嵌入，嵌入可以被平均在一起以创建单个嵌入向量。于是，在各种Buff的加持下，我们能够看到的是：在整个语料库上，预先训练得到了FastText向量，加上了BM25辅助建立索引并排列。最后，得到带有句嵌入索引的文章，帮助检索产生最相关的结果。

最后，检索出来句子，会通过过TextRank算法进行分析和运行，以便在最终的报告中，以高亮的形式框出。

以上图为例，在目标进行检索后，系统会输出文献的基本信息，如日期、研究方向、期刊等。

之后，会在对你所检索的问题进行句子提取和所在文献的排序，最终在文献中，所在句子会以高亮的形式框出。

文章部分素材源自：量子位

展开阅读全文

页面更新：2024-05-14

标签：文献语料库大奖组合向量高效句子索引形式文档数据库工具数据全文文章

1 2 3 4 5

Kaggle大奖斩获其6：用于筛选和分析文献的paperai

迈进数字世界 AWS首席技术官给出2021八大技术预测

数年之后，我们还是止步数据仓库，不懂“用户画像”（上）

回观2020 DevOps在中国深推开发运维一体化（下）

市值超过900亿美金，“数据云”何许人也？

2021达摩院十大科技趋势预测新鲜出炉

5月手机性价比排行榜，华为一个第一都没有，iQOO却拿了两个第一

红米10X售价1599元，5G手机价格再次下沉，这是跟华为杠上了？

100倍双目变焦，这次能拍月亮了吧，7988元起售的华为P40Pro+来了

麒麟990再爆新款，红外测体温，方便又实用，了解一下？

定价最便宜的5G手机，1699元华为畅享Z火爆来袭

三星，你可长点心吧。这次不会又凉了吧？

iQOO Z1，红米10X，荣耀X10会形成三足鼎立之势吗？

最薄5G手机来袭，看架势连华为拍照榜的第一也要易主了

天猫618强劲开局，苹果成交额再破记录，还是逃不过真香定律

这几款手机你真的不打算了解一下？虽说是4G，但是性价比是真的高

数年之后，我们还是止步数据仓库，不懂“用户画像”（上）

市值超过900亿美金，“数据云”何许人也？

899元的金立K6，8+128存储组合支持微信8开，你要回来交朋

数据维度太多，咋办？我们整理了17种表现形式（下）

非结构化数据这个“老大难”如何处理？

数据维度太多，咋办？我们整理了17种表现形式（上）

全方位解读数据治理，理清90%的混淆概念（下）

区块链：数据资产管理和流通中的一把利器

从五方面发力推动精准顺畅政务数据共享

“碳中和”热议数据中心应该怎么做？