字节“识典古籍”平台上线，AI修复古籍有迹可循？

穿越千年，和古人共同阅读是什么体验？10月11日，字节跳动正式发布由人工智能辅助进行古籍整理的数字化平台“识典古籍”测试版。据了解，该平台目前已向公众免费开放390部经典古籍，主要来自《四部丛刊》，共计3000多万字。

在项目发布现场，国家图书馆副馆长张志清介绍道，据此前普查数据，中国保有1912年前的古籍原本约3000万册，加上民国期间线装书总数可达5000万册。现存古籍体量已达世界前列，其中仍有1000多万册亟待修复。从2007年开始的中华古籍保护计划，则是新中国历史上首次由国家主持开展的全国性古籍保护工程。到现在已过15年，通过普查基本摸清全国古籍资源分布和保存状况，但古籍保护仍有巨大的进步空间。

张志清以国家图书馆的中华古籍资源库为例，部分古籍仍停留在影印本或没有标点，不便于阅读，“这实在是没有充足的资金和力量。”他引用著名文史学家安平秋的比喻，全国古籍工作就像一条大河，古籍保护是这条大河的上游。但现实情况是，相关从业者不到万人。“一万小时出不来熟手，两万小时未必出一个大师。”张志清强调，加强古籍人才培养，加快学科专业建设，对古籍保护和传承有重要意义。

据了解，“识典古籍”平台是由北京大学与字节跳动合作成立的数字人文开放实验室主导研发。据该项目负责人介绍，面对技术难度高、资金缺口大、专业人才紧张等难点，字节跳动希望用人工智能技术将古籍数字化，并用互联网产品优势激活古籍内容向公众靠近。

在古籍数字化的生产上，平台主要使用了文字识别、自动标点和实体识别技术。不仅能够将影印本上的文字提取整理，还能通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息，准确率达到96%至97%。数字化后的古籍可实现原文对照、繁简对照，内容检索、文白对照、知识百科等功能正在研发中。

正如北京大学数字人文研究中心主任王军所说，对古籍的数字化迁移除了能够更好地实现保护和传承，还能够让习惯数字阅读的现代人更多地了解晦涩难懂的古籍及其记载的文明，“让文明触手可及”。从1949年到2019年，国内共修复整理出版古籍近3.8万种，要将现存古籍全部修复整理出来，估计需要300年。但有了人工智能技术的辅助，这一时间将被大大缩短。

未来三年，“识典古籍”将陆续完成一万种古籍的智能化整理工作，基本覆盖儒家、道家和佛学的核心典籍目录，向全社会免费开放。届时，平台还将向全社会开放古籍阅读检索研究能力，实现全自动整理校对。

采写：南都记者黄慧诗

展开阅读全文

页面更新：2024-05-12

标签：国家图书馆古籍字节大河影印本北京大学平台人工智能标点上线技术

1 2 3 4 5

字节“识典古籍”平台上线，AI修复古籍有迹可循？

9月份汽车产销量继续快速增长新能源汽车产销量再创历史新高

9月中型车投诉榜单出炉，看看有你的爱车吗

特斯拉、商飞大飞机、宁德时代……一图看懂AI创新港应用场景

工信部推进研究eSIM，eSIM手机何时来？

传音旗下品牌TECNO海外推出Pova 4系列新机搭载联发科G99

比亚迪汉EV千山翠

200元以下蓝牙耳机无敌手？QCY MeloBuds ANC降噪耳机体验

智慧园区管理平台软件-建设绿色智能化园区

事关有机太阳能电池！海南教授团队公开发表重磅成果，登上国际top级期刊

中国品牌成“零防腐剂”探索主力军专家指配方自我升级或成国货逆袭新机遇

广西第一家世界500强企业：广西投资集团

企业合规师考试网：紫光收购锐迪未作反垄断申报，被处三十万罚款

你眼里的累赘正在成为别人手里的金矿电动车二手电池早已起飞

新业态能否成为县域经济新风口

中曼石油：第三季度签订合同金额同比增88.31%

智慧园区管理平台软件-建设绿色智能化园区

个税迎来大变！“一人式档案”个税信息云平台来了！关系到

支付宝被撤销高新技术企业认证？一文看懂其中门道

跟着总书记看中国丨大江大河大时代・国泰民安

嘴炮KO陪练视频曝光，无比得意称发明了新技术

哈啰，本地生活平台的最大黑马

高新区企业非常重要！征集科技创新、技术研发需求，期待

Vue3+Antdv 快速后台管理平台SnowyAdmin

什么是深度学习？人工智能能影响未来的特点之一

广东省农业技术推广中心研究员林青山：加强丝苗米全产业