在《你好,李焕英》中,贾晓玲穿越时空,与年轻的母亲来了一场超时空对话。现如今,除了电话、语音、视频等通讯方式能拉近地域上的距离,跨越时空的对话也从某种意义上成为现实。
2020 年,一部韩国的纪录片《I Met You》就记录了这样一个“重聚”场景。一位失去女儿的母亲在VR技术的支持下,与自己曾经逝去的女儿“重逢”。为了力求真实可靠的数据,技术人员引入了AI语音合成技术,让这个虚拟人物能够发出和女儿曾经一样的声音,并能与母亲进行互动与交流。
以上这样的定制化语音交互系统,究竟是如何实现的呢?以京东语音合成声音定制服务 & 闲聊为例。首先,我们可以把这个场景拆分语音合成声音定制(让虚拟人物能发出女儿曾经一样的声音)与开放场景对话能力(虚拟女儿能与母亲进行互动与交流)。
通常智能对话能力的实现,主要由语音交互系统三个主要流程组成:
上图所示为语音交互系统的整体流程,大家能更清晰地看到每个模块的输入输出,以及各模块之间的协作关系。其中,NLU 是非常重要的模块之一。NLU 的目标是将文本信息转换为可被机器处理的语义表示。其涵盖领域非常广泛,包括句子检测,分词,词性标注,句法分析,文本分类/聚类,文字角度,信息抽取/自动摘要,机器翻译,自动问答,文本生成等多个领域。
但和基于规则的 NLU 相比,人类对话与对话系统一个重要区别是它是否与现实相结合。基于京东NLP引擎能力、数据运算能力和千亿级互联网语料数据的支持,京东闲聊集成了较强的开放场景对话能力,分析并理解用户对于开放场景的提问,可通过结合外部知识库来弥补对话系统与人类之间背景知识差距的方法,生成流畅且个性化的回复,实现用户语音交流的需求。
然而,智能语音对话的“身体”有了,定制化声音的“灵魂”又该如何实现?
语音合成声音定制简单来看主要分为三步:上传指定内容语音文件;进行语音合成模型训练;使用模型进行语音合成。
从上图的 AI 的架构来理解,首先通过基础层语音信号的采集、降噪等预处理;其次在技术层通过对原始语音信号的特征进行抽取,由原始的语音得到语音向量。再使用声学模型和字典、语言模型对语音向量进行解码搜索;最后,对识别结果进行应用层的输出。
文章部分素材源自: 京东科技开发者
页面更新:2024-05-02
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号