今天，我们用爱把“李焕英”带回了 2021......

在《你好，李焕英》中，贾晓玲穿越时空，与年轻的母亲来了一场超时空对话。现如今，除了电话、语音、视频等通讯方式能拉近地域上的距离，跨越时空的对话也从某种意义上成为现实。

2020 年，一部韩国的纪录片《I Met You》就记录了这样一个“重聚”场景。一位失去女儿的母亲在VR技术的支持下，与自己曾经逝去的女儿“重逢”。为了力求真实可靠的数据，技术人员引入了AI语音合成技术，让这个虚拟人物能够发出和女儿曾经一样的声音，并能与母亲进行互动与交流。

以上这样的定制化语音交互系统，究竟是如何实现的呢？以京东语音合成声音定制服务 & 闲聊为例。首先，我们可以把这个场景拆分语音合成声音定制（让虚拟人物能发出女儿曾经一样的声音）与开放场景对话能力（虚拟女儿能与母亲进行互动与交流）。

通常智能对话能力的实现，主要由语音交互系统三个主要流程组成：

语音识别：将原始的语音信号转换成文本信息（ASR），并将识别出来的文本信息转换为机器可以理解的语义表示（NLU）。简单来说，就是让机器可以听到人话；

自然语言理解：基于语义表示出来的对话的状态，对对话进行理解（DM），判断系统应该采取什么系统动作。这里的动作可以理解为，机器需要向你表达什么意思；

语音合成：将系统动作转变成自然语言文本（NLG），并将其变成语音输出给用户（TTS）。

上图所示为语音交互系统的整体流程，大家能更清晰地看到每个模块的输入输出，以及各模块之间的协作关系。其中，NLU 是非常重要的模块之一。NLU 的目标是将文本信息转换为可被机器处理的语义表示。其涵盖领域非常广泛，包括句子检测，分词，词性标注，句法分析，文本分类/聚类，文字角度，信息抽取/自动摘要，机器翻译，自动问答，文本生成等多个领域。

但和基于规则的 NLU 相比，人类对话与对话系统一个重要区别是它是否与现实相结合。基于京东NLP引擎能力、数据运算能力和千亿级互联网语料数据的支持，京东闲聊集成了较强的开放场景对话能力，分析并理解用户对于开放场景的提问，可通过结合外部知识库来弥补对话系统与人类之间背景知识差距的方法，生成流畅且个性化的回复，实现用户语音交流的需求。

然而，智能语音对话的“身体”有了，定制化声音的“灵魂”又该如何实现？

语音合成声音定制简单来看主要分为三步：上传指定内容语音文件；进行语音合成模型训练；使用模型进行语音合成。

从上图的 AI 的架构来理解，首先通过基础层语音信号的采集、降噪等预处理；其次在技术层通过对原始语音信号的特征进行抽取，由原始的语音得到语音向量。再使用声学模型和字典、语言模型对语音向量进行解码搜索；最后，对识别结果进行应用层的输出。

文章部分素材源自：京东科技开发者

展开阅读全文

页面更新：2024-05-02

标签：自然语言向量语义模块语音模型场景文本女儿母亲声音机器能力系统科技

1 2 3 4 5

今天，我们用爱把“李焕英”带回了 2021......

正式支持AMD GPU的PyTorch 1.8来了

水下10900米运动自如，浙大软体机器人成功挑战马里亚纳海沟

“华OV”将天玑720卖到2500，这合理吗？

三款骁龙888新机确认，小米11、Find X3、iQOO7

120Hz+1亿像素+高通750G，Note9Pro必将大卖

双十一购买红米K30系列的看过来，一共七个型号，你可别买错了

跑分95万，18GB运行+骁龙888，ROG5这是要上天吗？

仅1659元，跑分41万+AMOLED屏+30倍变焦+OIS

先出小米11，再出小米10S，这是一波什么操作？

不按套路出牌，骁龙888+120Hz+65W仅售2799元

K30至尊版、iQOO Z1、荣耀X10哪一款最值得入手？

买旧不买新？买nova8 SE还真不如买nova7 SE

恭喜你：Redmi Note9，各大销量榜单见

1599价位绝对王者—真我Q3 Pro，你绝对找不到它的对手

2999元一对黑桃K=OPPO K9（8GB+128GB）手机+43英寸K9智能电视

水下10900米运动自如，浙大软体机器人成功挑战马里亚纳

开源语音工具包+1 纯PyTorch的SpeechBrain

每小时“搬砖”800块，最大化释放动力仓储机器势能

“修剪”模型大小完成推理倍速提升真不愧是谷歌

8小时洗200万条数据贝叶斯「数据清洗」机器人或将击

魔镜——让科幻电影走进现实就需要谷歌黑科技了

「券商聚焦」里昂看好金科服务持续扩张能力

「一周IPO追踪」本周11家公司将登陆港股，医渡科技周五

明天看老罗锤子科技新品发布会的进来看，京东直播发福利

碧桂园再闯机器人"蓝海"，为何传统企业都开始"不务正业"