Kaggle大奖斩获其6:用于筛选和分析文献的paperai

近日,一项用于筛选和分析文献的AI工具paperai,冲上了Reddit热榜。原因是:他在CORD-19(COVID-19文献数据集) Kaggle挑战赛中斩获了6项大奖。

主办方准备了一个庞大的文献数据库,包含了20多万篇学术论文,其中有10万余篇是与COVID-19相关的研究。该比赛希望全世界AI专家使用文本挖掘工具,来完成比赛中的各类任务。最后,帮助研究人员能从浩如烟海的文献进行高效检索,为推进COVID-19的研究提供帮助。就是在这样一项比赛中,这个paperai,获得了8项任务大奖中的6项:对于一项工具,在多项任务的普适,这毫无疑问是巨大的成功。那么,这么强势的一项工具,其背后,又是如何运行工作的呢?

Kaggle大奖斩获其6:用于筛选和分析文献的paperai

简单来说,该模型就是句嵌入索引和带有文章的SQLite数据库的组合。首先,每篇文章都被解析成句子,并与文章元数据一起存储在SQLite中。SQLite本身就具有虚拟表模块FTS5,可以进行全文搜索。这个全文搜索引擎,允许用户在大量文档集合中高效地搜索包含一个或多个搜索词。SQLite的FTS5默认加权方案是tf-idf,此外,它还支持BM25,这使得性能够进一步提高。之后,使用FastText+BM25创建句嵌入索引。BM25是一个词袋检索功能,它根据每个文档中出现的查询词对一组文档进行排序。

最后,开发者选择使用FastText为每个标记检索单词嵌入。为了构建句子嵌入,嵌入可以被平均在一起以创建单个嵌入向量。于是,在各种Buff的加持下,我们能够看到的是:在整个语料库上,预先训练得到了FastText向量,加上了BM25辅助建立索引并排列。最后,得到带有句嵌入索引的文章,帮助检索产生最相关的结果。

Kaggle大奖斩获其6:用于筛选和分析文献的paperai

最后,检索出来句子,会通过过TextRank算法进行分析和运行,以便在最终的报告中,以高亮的形式框出。

Kaggle大奖斩获其6:用于筛选和分析文献的paperai

以上图为例,在目标进行检索后,系统会输出文献的基本信息,如日期、研究方向、期刊等。

之后,会在对你所检索的问题进行句子提取和所在文献的排序,最终在文献中,所在句子会以高亮的形式框出。

文章部分素材源自:量子位

展开阅读全文

页面更新:2024-05-14

标签:文献   语料库   大奖   组合   向量   高效   句子   索引   形式   文档   数据库   工具   数据   全文   文章

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top