流失海外160年,在美古籍回家了!AI已数字化20多万页内容

1861年,本是书香满园的杭州文澜阁毁于战乱,其中著名的《四库全书》就此消散,无数经典从此淹没在历史中。经历这轮战乱,文澜阁本《四库全书》的四分之三从此消失,不知所踪。

流失海外160年,在美古籍回家了!AI已数字化20多万页内容

在160年后,阿里巴巴联合四川大学、美国加州大学伯克利分校,共同发起一项公益项目,寻觅那些流散在海外的中国古籍,借助AI技术让它们回归故土。

几经辗转,古籍流浪160年

直到1950年,有人发现清代曹庭栋辑纂的《宋百家诗存》出现在美国加州大学伯克利分校东亚图书馆。而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。

流失海外160年,在美古籍回家了!AI已数字化20多万页内容

原来当时伯克利东亚图书馆从日本三井文库购得这批古书,但这些古书文物当年到底经历了怎样的颠簸流离,如今已不可考。而近代遗失海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。

流失海外160年,在美古籍回家了!AI已数字化20多万页内容

流散海外的古书典籍,却成了中国文学、历史研究,以及传统文化传承难以弥补的遗憾。而今古籍得以回家,也许普通人不清楚这意味着什么,但是对古籍研究者和学者来说,绝对是个大新闻。

沧海桑田,AI还原古籍真容

来自四川大学教授陈力花费两年时间,奔走联系加州大学伯克利分校,让收藏在伯克利的中文古籍善本通过达摩院技术,以数字化方式回归故土。首批数字化古籍中,有40多种宋元珍本向公众开放。

流失海外160年,在美古籍回家了!AI已数字化20多万页内容

然而让古籍重现荣光可不简单,普通的文字识别技术都是针对现代汉字的,常见的现代汉字,算法能够覆盖到的文字基本上在2万字以内,但是古籍文字多达几十万!所以必须开发全新的文字识别技术。

除了文字难以识别,由于年代久远,古书保存状况也各有不同,纸张破损、污渍等等。再加上古书版式复杂,其不同于如今的排版,在每行字中间还常常夹有批注,这进一步增加了识别的难度。

流失海外160年,在美古籍回家了!AI已数字化20多万页内容

之后,阿里达摩院技术团队与四川大学专家联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成对20万页古籍的整体识别

如今哈佛燕京图书馆所有古籍善本共计4200部,53000卷已经实现数字化,并可以在线查阅和下载。

流失海外160年,在美古籍回家了!AI已数字化20多万页内容

现在,只需要在哈佛大学图书馆的SEARCH输入—— National Library of China — Harvard-Yenching Library Chinese rare book digitization projec ,能看到与中国国图合作数字化的所有图书,共有1400余本。

修史、整理文献,表面上是修复残破、逸散的古籍,本质上实则是补全中国文化最重要的载体。索菲亚由衷的希望,AI技术能给文明以岁月。

展开阅读全文

页面更新:2024-04-14

标签:达摩   古籍   东亚   汉字   哈佛   善本   宋元   单字   古书   故土   分校   中国   四川大学   海外   文字

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top