拯救少数民族濒危语言,这位博士用AI造了一本辞典

系列报道之⑦

两年多前,在英国读博的彭煦潭将一个程序打包后上传至百度网盘。此时的他并不知道,这个基于百度飞桨而建立的少数民族语言-汉语对照辞典,会用于社科院的相关项目,与云南、四川等地的古老方言产生联系。

以自然语言处理为研究方向的他,听完濒危语言保护的讲座后深受触动,当即决定用所学知识留住濒危语言。快速组建团队后,他利用人工智能将想法落地,解决语言保护工作者颇为头痛且工作量大的翻译、整理工作,减少对人的依赖。

人工智能改变世界,改变人类的生活,为未来带去无限可能,也能为人类留住过去。彭煦潭深知,语言是文化的DNA,一旦语言消失,文明随之消亡。在他的努力下,古老的方言得以编制成读本,走进小学教室,让更多人学会使用自己的母语。

英国谢菲尔德大学博士彭煦潭

全球超2000种语言处于濒危状态

彭煦潭自小对语言感兴趣,喜欢表达,是个话痨。大学时自然选择了与语言相关的计算机专业,到英国读博后锁定人工智能领域的自然语言处理方向,继续深造,逐渐从一名普通开发者成长为人工智能领域后起之秀。

作为一名理科生,彭煦潭却对人文历史情有独钟。读书期间,他就和朋友们时常约着听各种文史讲座,开阔眼界、结交朋友。2020年2月,谢菲尔德大学人文学院举办了一场与“国际母语日”相关的讲座。讲座中一位教授的分享,将彭煦潭深深打动。

这位教授的分享是关于濒危语言保护的,他讲述了一个故事:曾有少数族群的后裔,从家里翻出了老旧的羊皮纸和地毯。这些老旧的物品在他们家族中已经不知传了多少代人,上面写着谁也看不懂的文字。后裔很希望读懂上面文字,了解祖辈过去。经过学者的破译和研究,未知文字终于被破译。原来,地毯上记录着族群的神话故事,而羊皮纸上则记录着祖辈唯美的爱情。

据联合国教科文组织在2020年的调查数据显示,全球七千多种语言中至少有40%处于某种程度的濒危状态。据商务印书馆出版的“中国濒危语言志”丛书记录,全国130多种语言中,有68种使用人口在万人以下,有48种使用人口在五千人以下,有25种使用人口不足一千人,有的语言只剩下十几个人甚至几个人会说。了解到这些数字后,彭煦潭说:“当时就觉得一定要做些什么,专业也比较对口,某种程度上有一种使命感。”

拯救计划随之开始,彭煦潭快速行动,与在北航读硕士的司靖辉、荷兰乌特勒支大学读博陈冠毅组成三人团队。这套流程他并不陌生。早在大二时,彭煦潭就使用过百度的深度学习框架飞桨,用其开发过多个程序。据了解,百度飞桨集深度学习核心框架、工具组件和服务平台为一体的开源深度学习平台,提供丰富的官方支持模型集合,并推出全类型的高性能部署和集成方案共开发者使用。

“我在飞桨平台的主持序列号是70多,属于百度飞桨早期用户。”他告诉南都记者,在飞桨上搭建一个AI算法,像是搭积木,原来需要自己去砍树、去打磨,现在拿起积木就能动手。

借助百度飞桨平台生成对照辞典

在遥远的四川,在阿坝州藏文编译局担任副编审的阿根正在制作汉、藏、嘉绒方言的对照读本。她在嘉绒各地搜集民歌、故事、词汇后,对照翻译为藏文、汉语。但徒步到各地采集录音,再加上翻译时间,一个月仅能完成两个故事的转录和翻译。

彭煦潭和他的团队所做的,就是提高语保工作后期整理、翻译的效率,减少对像阿根一样熟悉多种语言的人的依赖。建立辞典所需的“无监督跨语言词向量算法”技术,正好是他博士期间的主要课题之一。原理上,只要输入两套语言的独立原始语料,人工智能就能自动生成对照辞典。

但部分濒危语言没有文字,只有语音留存。这是辞典开发中遇到的一大难点。考虑到声音语料无法直接处理,彭煦潭和团队想到先用国际音标将濒危语言录音转写为文本。“这就要重新花时间训练模型,转写过程费时、费力。”

相比之下,濒危语种语料缺少的问题并不可怕。彭同学告诉南都记者,在读博期间,他相关研究的一大贡献即迭代算法,能将语料缺少的负面影响降低。

少数民族的语料主要围绕神话传说、民间故事、民歌和日常对话。转写完成后,发现规律的彭同学和分属不同时区的两个伙伴,在算法中引入与汉语和濒危语言有联系的《故事会》作为“桥梁”,当各自语料领域相对近似时,可通过对齐算法建立濒危语言和现代汉语之间的联系。

具体操作中,他们运用百度飞桨平台能力,包括对《故事会》上的文本进行预处理、用集成技术分词等,最终实现全自动生成大规模“汉语-少数民族语言”辞典。

百度飞桨平台

人工智能技术不再是少数人的特权

嘉绒方言与藏语汉语对照辞典自动生成系统的出现,大大提升阿根的工作效率。常规生活对话的翻译中,该辞典准确率达到80%,帮助阿根在开学前制作好读本。

阿根将读本带给86岁的母亲,老人家可以在新技术的帮助下学习文字。在学校里,小学生们拿着读本,听老师讲祖辈们用嘉绒语记录下来的音乐故事。

彭煦潭团队的算法为更多像阿根一样的语言保护工作者搭建起基本框架。田野调查中,他们不再需要跟着母语者从零开始学习濒危语言,而是可以直接依靠人工智能生成的辞典进行对照,遇到不确定的词句再向母语者确认。

濒临消失的语言及时被保存下来,藏在其中的故事被唤醒,彭煦潭很开心,自己用技术留住过去,挖掘出一个民族的过往。他庆幸得益于现有的技术,能够在神经网络、机器学习的框架下,利用百度飞桨的能力,以及团队对几何分布方法的运用,解决传统需要双语工作者才能做到的翻译工作,使得语言保护工作有所突破。

这也是百度飞桨设立的初衷。百度飞桨产品团队负责人赵乔表示:“希望人工智能技术不再是少数人的特权,希望更多人使用这个技术。”数据显示,我国AI人才缺口达500万。百度在2020年提出,要在未来5年为社会培养500万AI人才,让更多普通人接触并走进AI世界。

截至2023年1月,百度总计为社会培养超过300万AI人才。他们之中,有人在疫情防控期间开发出将地图和新闻结合的网页应用,有人用算法让小区志愿者告别垃圾分类苦恼,有人与深度学习结缘后尝试用技术解放高空油漆工……这些年轻人通过学习AI、参加竞赛、应用落地的闭环,能力随之提升,借助所学改变现实生活中的难题。

最终,这部辞典帮彭煦潭和小伙伴拿下由百度和浙江大学联合举办的“中国高校计算机大赛-人工智能创意赛”一等奖、最佳案例和优秀开源奖,也获得中国社科院的关注。

目前,彭煦潭已经将项目的源码、文本说明等全部捐赠给了国家语保工程的“语言典藏”项目,完善语言翻译工具链。可以预见的未来,一群少年将开启自己的AI之梦,一路升级打怪,继续向深处行。

采写:南都记者 黄培

展开阅读全文

页面更新:2024-04-29

标签:藏文   辞典   语料   语言   汉语   祖辈   人工智能   母语   读本   少数民族   方言   算法   博士   团队   文字   平台   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top