译技术 - 媒体语言语料库:供媒体人选择的宝库


1. 工具简介

媒体语言语料库(Media Language Corpus, MLC)又可称作中国传媒大学有声媒体文本语料库,是一个开放的、免费使用的语料库,由中国传媒大学国家语言资源监测与研究有声媒体中心研发。自该平台在05年上线以来,语料规模不断扩大,转写了大量广播、媒体等语料便于广大研究者使用。本语料库中所有文本都进行了分词和词性标注,并且为保证语料的典型性和代表性,每年都会选择流通度大、年度间有一定连续性的节目文本。

本语料库囊括2008-2010年间的广播、电视节目的转写文本,用户可以搜索目标关键词或字符串,按检索菜单所提示的分类标准选择,便可获得选定媒体类别下的目标文本。

官网:https://ling.cuc.edu.cn/RawPub/


2. 图文教程

2.1 熟悉“检索范围选择”

官方页面如下图:

在进行检索之前,了解如何使用“检索范围选择”功能可以很大程度上缩小我们的检索范围,提高检索准确率。

查看导航栏,可以看到“检索范围选择”选项,菜单栏如下:

用户可以选择“媒体”、“级别”、“单位”、“形式”、“语体”、“内容”、“对象”、“栏目”、“频道”、“主持人”、“时间”等选项。以上选项用户可以按照次序填写所有内容,也可以不做范围限定,那么用户在搜索框输入的目标对象将会在所有语料库中进行筛选。常用的选项有媒体、形式、栏目、主持人等,“媒体”栏可供选择“电视”、“广播”,“形式”栏可以分为“独白”、“对话”、“谈话”、“综合”等,如果用户想要搜索白岩松的“新闻1+1”栏目,那么用户只需要在主持人栏填写“白岩松”,在“栏目”中进行相应的筛选即可。


2.2 常规搜索

1) 生语料

语料形式分为生语料、熟语料两类,生语料是原始语料,熟语料是经过分词和词性标注的语料。以下是使用生语料搜索的相关教程。以“腐败”为例,用户在检索输入框中输入“腐败”,点击语料形式“生语料”,不进行检索范围的限定,检索结果如下图所示:

本语料库中所有语料都进行了元数据标注,用户可以点击每行记录后的“查询”键,即可浏览相应的文本及文本出处。此外,在搜索结果下方还有“排序”、“二次检索”,用户可以根据自身需求进行下一步的选择,搜索结果也可以用文本保存下来,供学习整理使用。

2) 熟语料

在熟语料检索时,用户可以搜索特定词性的词,但是要注意在词性前面加“/”,输入“证明/n”,表示检索所有词性的“证明”后加名词的词串,若要检索动词“证明”后面加名词词串,则要输入“证明/v/n”。


2.3 高级检索

高级检索栏位于导航栏“首页”栏右侧,可以实现“成对字串检索”、“重叠检索”和“正则表达式检索”等功能,具体步骤如下:

1)成对字串检索

可以实现成对出现的词语的检索,如关联词。成对字串之间的词间距可以自由选择。以“只有”...“才”为例:


2)重叠形式检索

重叠形式检索的对象为目标文本中出现重叠字样的词出现,有AA(瞧瞧、悄悄)、ABAB(准备准备)、AABB、或特殊的带指定4字N的ANA型。其中ABB、ANA型,A必须指定,以下搜索ABB,A指定为“甜”的相关搜索结果:

3)正则表达式检索

正则表达式功能可以实现较为复杂的检索,如可以实现“儿话词”的检索等。


3. 学习心得

语料库作为一种数字化的学习资源和教育资源受到了广泛关注,检索时只需要输入想要查询的词汇或词串,检索结果就会将目标词汇的前后文列举出来,并标明出处,这很大程度上可以减轻用户的负担。通过对媒体语言语料库的学习应用,不仅有助于丰富新闻词汇量,提升媒体素养,同时也有利于拓宽思维,使学习更自主、更便捷。

注:学习作品,仅供参考,欢迎指正。

作者:王燕娟 编校:布兰妮

展开阅读全文

页面更新:2024-04-14

标签:语料库   语料   熟语   媒体   词性   人选   宝库   选项   文本   形式   目标   语言   用户   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top