字节“识典古籍”平台上线,AI修复古籍有迹可循?

穿越千年,和古人共同阅读是什么体验?10月11日,字节跳动正式发布由人工智能辅助进行古籍整理的数字化平台“识典古籍”测试版。据了解,该平台目前已向公众免费开放390部经典古籍,主要来自《四部丛刊》,共计3000多万字。

在项目发布现场,国家图书馆副馆长张志清介绍道,据此前普查数据,中国保有1912年前的古籍原本约3000万册,加上民国期间线装书总数可达5000万册。现存古籍体量已达世界前列,其中仍有1000多万册亟待修复。从2007年开始的中华古籍保护计划,则是新中国历史上首次由国家主持开展的全国性古籍保护工程。到现在已过15年,通过普查基本摸清全国古籍资源分布和保存状况,但古籍保护仍有巨大的进步空间。

张志清以国家图书馆的中华古籍资源库为例,部分古籍仍停留在影印本或没有标点,不便于阅读,“这实在是没有充足的资金和力量。”他引用著名文史学家安平秋的比喻,全国古籍工作就像一条大河,古籍保护是这条大河的上游。但现实情况是,相关从业者不到万人。“一万小时出不来熟手,两万小时未必出一个大师。”张志清强调,加强古籍人才培养,加快学科专业建设,对古籍保护和传承有重要意义。

据了解,“识典古籍”平台是由北京大学与字节跳动合作成立的数字人文开放实验室主导研发。据该项目负责人介绍,面对技术难度高、资金缺口大、专业人才紧张等难点,字节跳动希望用人工智能技术将古籍数字化,并用互联网产品优势激活古籍内容向公众靠近。

在古籍数字化的生产上,平台主要使用了文字识别、自动标点和实体识别技术。不仅能够将影印本上的文字提取整理,还能通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息,准确率达到96%至97%。数字化后的古籍可实现原文对照、繁简对照,内容检索、文白对照、知识百科等功能正在研发中。

正如北京大学数字人文研究中心主任王军所说,对古籍的数字化迁移除了能够更好地实现保护和传承,还能够让习惯数字阅读的现代人更多地了解晦涩难懂的古籍及其记载的文明,“让文明触手可及”。从1949年到2019年,国内共修复整理出版古籍近3.8万种,要将现存古籍全部修复整理出来,估计需要300年。但有了人工智能技术的辅助,这一时间将被大大缩短。

未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,向全社会免费开放。届时,平台还将向全社会开放古籍阅读检索研究能力,实现全自动整理校对。

采写:南都记者黄慧诗

展开阅读全文

页面更新:2024-05-12

标签:国家图书馆   古籍   字节   大河   影印本   北京大学   平台   人工智能   标点   上线   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top