从语音合成（TTS）的发展探寻智能语音行业的现状与未来

报告摘要

近年来，智能语音行业多家企业在上市程序上折戟沉沙。2月19日，上交所发布公告称，云知声和其保荐人中金公司于2021年2月18日向上交所提交了撤回IPO申请文件。根据规定，上交所决定终止云知声的发行上市审核。智能语音在上市程序上的表现不禁让市场疑惑，作为Al领域的重要组成部分，智能语音为何屡屡受挫，长期亏损？是技术原因还是市场导致？

本报告主要关注于智能语音中合成语音（TTS）部分的市场现状，了解TTS技术的现状，产业链情况，分析了TTS的技术应用场景以及未来的发展难点和趋势。

语音合成的定义与结构

语音合成的应用可以划分为单向语音输出类和交互类，单一使用单向语音输出类或交互类的场景并不多见，导航技术、阅读、配音、语音播报等场景下，单向语音输出应用比例较大，智能客服、智能机器人、泛娱乐产业、教育等场景下，交互类语音合成使用较多。

■ 语音合成让人工智能开口说话

语音合成又称文语转换（Text to Speech，TTS）技术，是语音处理领域的一个重要研究方向，旨在让机器生成自然动听的人类语音。语音合成技术既可以单独适用于不同的场景之内，也可以作为尾部环节嵌入到语音交互的整体方案之中。

■ 语音合成技术内部分为前端和后端

语音合成技术内部分为前端和后端。前端主要负责文本的语言解析和处理，其处理内容主要包括语种、分词、词性预测、多音字处理、韵律预测、情感等。把文本上的发音的这些信息都预测出来之后，将信息送给TTS的后端系统，后台声学系统融合这些信息之后，将内容转化为语音。后端声学系统发展历程较长，从第一代的语音拼接合成，到第二代的语音参数合成，到第三代端到端合成，后端声学系统的智能化程度逐步增加，训练素材需要标记的详细程度和难度也在逐步减弱。

语音合成声学系统的发展

语音合成模型经过长时间的发展，由最初的基于拼接合成，到参数合成，逐渐达到了现阶段感情充沛的基于端到端合成，最新一代端到端合成降低了对语言学知识的要求，可批量实现多语种的合成系统，语音自然程度高。

第一代：基于拼接合成

拼接合成：为了更好的拟合人声，拼接合成技术需要一个大规模的真人音库，音库内容按照音素和不同特征进行标注，合成时根据语言学特征寻找符合的音素，拼接起来完成合成

优点：效果接近真人，运算量低

缺点：拼接而成，语音不连贯，依赖音库，需要人工介入制定很多挑选规则和参数，制作成本高

第二代：基于参数合成

参数合成∶ 通过深度学习构建文本特征和音库之间的映射关系，构建参数合成模型，当输入一个语言学特征时，基于神经网络给出声频特征，后通过声码器合成语音波形。

优点：音库数量要求不多，合成语音连接平稳，质量高

缺点：对声码器依赖程度高，同时，由于传统参数系统建模时存在信息损失，限制了合成语音表现力的进一步提升

第三代：基于端到端（以Tactron为例）

端到端合成∶ 端到端语音合成一定程度上解决了拼接合成和参数合成存在的部分缺陷。端到端合成系统直接输入文本或者注音字符，通过文本或者文本特征和语音直接建模，跳过声码器阶段，减少了对声码器的依赖，弱化前端概念。

优点∶降低对语言学知识的要求，可方便的在不同语种上复制，批量实现几.十种甚至更多语种的合成系统，语音自然程度高

缺点∶运算量大，无法人工调优，实时性低

语音合成的主观评价标准

语音合成的主观效果指标分为Mos值测试和ABX测试两种，MOS值主要关注于语音本身的质量。而ABX则更注重通过参照对比，用来评价合成语音的适宜性和效果。

■ MOS值测试

语音合成发展历史悠久，技术较为成熟，已形成产品广泛应用于商业。作为产品，语音合成技术需要一套量化的评价标准用以评判合成语音的质量。现阶段，业内较为认可的主观评价标准为Mos （Mean Opinion Score）值测试。Mos测试值评价会邀请业内专家，从音质、流畅程度、正确性、自然度、分词与停顿、音色6个方面，根据专家主观意见，对合成语音进行打分。再根据打分的平均值得到合成语音的最终评分。

MOS值能够有效合理的评价合成语音质量，其从使用者的感官角度出发，既评测了合成语音的声音质量，也对合成语音的拟人化、自然度做出了评价，是行业内较为通用的评价机制。但MOS值主要依靠人为打分，具有一定的主观性，同时，MOS值的打分需要许多领域内的人员进行打分，这需要昂贵的人力资源和时间开销，因此自动打分MOS的系统被提出，比如MOSNET，AutoNET等等，一定程度上替代了全人工 MOS值测试。

■ABX测评

ABX测评主要是对合成效果进行对比性测试。主要方式是通过相同文本与音色来对比不同的TTS系统的语音合成效果，ABX测评人为主观判断较多，这种方式更注重通过参照对比，来评价合成语音的适宜性和效果，有一定的优越性。

语音合成的客观评价标准

语音合成的客观性能指标主要包括实时率（RTF）、首包响应时间和并发数，实时率和首包响应时间注重与用户体验，而并发数关注的重点则是技术层面和生产成本。

一、实时率（RTF）与首包响应时间

■ TTS所对应的合成时间保持在500ms内较为理想

实时率是评估合成语音的参数之一，要求语音合成系统在接收到指令后快速以最快的速度合成语音，力求尽可能缩短用户的等待时间，提高用户体验。一般情况而言，语音交互期望的整体时延在2秒左右，理想情况在1.5秒，整体时延包括前端ASR、NLP等所花费的时间，因此，TTS所对应的合成时间保持在 500ms内较为理想。

■ 非流式合成适合语音输出，流式合成适合语音交互

语音合成分为非流式合成和流式合成，两者在合成语音实时性上关注的重点也不同。非流式合成方式一次性输入文字，一次性输出语音，注重语音合成系统的整体运算速度，该TTS方案不适合做语音交互。而流式合成、可以基于文本预测进行分词断句，分段传回合成的音频，这种语音合成方式主要关注其首包响应时间，首包响应时间越短，用户就会越快取得回应，用户等待和空白的时间减少，不会因为等待回应而失去耐心，因此整体体验感较好，是更适合作为语音交互的TTS方案。

■ 语音交互场景下离线TTS为较好选择

当前的语音合成系统分为云端TTS和离线TTS。云端TTS主要配套端到端或者多层神经网络的算法，语音输出质量更高，算力更强，但因此实时性更差，不适宜语音交互。而随着离线TTS算力以及算法得逐步更新，发展情况较好，一些参数化合成的TTS方案已经能够以10字/100ms左右的延时，合成质量也达到一定水平，适合于合成语音的交互类场景。

二、并发数

■ 实现一核多线能有效减少成本花费

为了资源的利用率最大化，应用时保持TTS方案的RTF接近1或等于1即可，当RTF远小于1则可实现一核多线。线数即单线并发数，单线并发数越多，则需要的核数越少，并发数量的增加将减少服务器的成本费用。比如当用户需要200线程的语音合成并发数，如果实现一核5线，就需要64核CPU服务器实现，如果能达到一核10线，则24核的CPU服务器即可满足客户需求，为客户节省了成本。

语音合成产品质量分析评价

当前，中国语音合成产品已经从初步发展走向成熟，语音合成产品的拟人化程度、自然度已实现飞跃，涌现出一批优质企业如科大讯飞等。

科大讯飞：行业内领军企业，在语音合成乃至智能语音行业均属于龙头企业．其技术水平和产品质量均较好.不足在于产品价格较高。

百度∶ 整体技术和产品质量均价较好以通用TTS为主．价格是多家中最低的．应用领域较为广泛．定价多元.市场认可度较高。

云知声∶产品性能稍逊色于科大讯飞和百度．但依旧受到市场认可．其产品的性价比较高.但可选择的语音和语种较少。

语音合成产业链分析

语音合成的产业链上中下游呈现一定的一体化趋势，尤其是上中游融合趋势较为明显，中游竞争格局已初步显现，下游应用场景多样，商用化落地实现盈利成为重点。

■ 人工智能数据产品及服务隶属于人工智能产业链的基础层，是自主研发人工智能技术的企业与机构必需的基础生产要素，其数量多察和质量高低将会直擦影响到入人工智能产业链内企业的研发思期、产品性能和可扩展性。语音合成企业需要向上游购买训练数据或服务，以达成人工智能模型的实现。

■ 部分数据标记企业为了使业务能够可持续发展而不受到产业自身限制，也开始拓展自己的业务边界，开拓了自有TTS的产品线。

■ 截止到2020年12月，中国数据标准企业数量达到705家，数据标记企业30%左右分布于北京，其次为上海和成都。行业内不少企业成立于中国人工智能行业兴起的2015年之后，数据标记乃至数据产品服务行业整体较为新兴。

■ 通用TTS发音相对的机械化，声韵比较平淡，但是优点在于通用TTS口齿清晰，听者可以准确获取声音信息，因此，通用TTS适用于导航、语音播报、智能客服和大多数语音交互场景。由于他对音色，情感上没有过多要求，因此其制作成本整体而言较为低廉。

■ 个性化TTS在通用TTS的基础上更加注重音色和情感，情感和声音的表现力比通用型TS更强，这类声音主要应用于对声音质量较高的教育，长音频、直播以及影视游戏配音等场景当中。现阶段，互联网大企业涉足个性化TTS服务这一业务较少，创新性中小企业踊跃出现。基于个性化TTS的复杂程度，相比通用型TTS，个性化TTS的制作成本相对高昂。

■ 个性化TS最早落地于导航领域产品，其原因主要在于导航语音的话术较为固定，只有约20%变量的部分是用TTS合成出来的，基于个性化TS的早期水平并不成熟，因此，个性化 TTS的IP价值首先体现在了导航领域。

■ 长音频是个性化TTS发展的有利平台.TTS技术能够大大减少将文字转为语音的时间和财务成本，极大的压缩了长音频广播剧，有声书等的制作周期，能够更快节奏的，及时的将长音频作品呈现到用户眼前。

语音合成产业链上游——数据产品及服务

人工智能数据产品及服务隶属于人工智能产业链的基础层，是自主研发人工智能技术的企业与机构必需的基础生产要素，实现机器的深度学习需要大数据和大算力的支持，这为数据产品及服务行业带来了巨大的市场

■ 数据是人工智能达成的基础

人工智能数据产品及服务隶属于人工智能产业链的基础层，是自主研发人工智能技术的企业与机构必需的基础生产要素，其数量多寡和质量高低将会直接影响到人工智能产业链内企业的研发周期、产品性能和可扩展性。语音合成企业需要向上游购买训练数据或服务，以达成人工智能模型的实现。

■ 数据服务随Al行业成长而发展

随着人工智能的发展，机器深度学习技术取得了快速提高，而实现机器的深度学习需要大数据和大算力的支持。这为数据产品及服务行业带来了巨大的市场。

截止到2020年12月，中国数据标准企业数量达到705家，数据标记企业30%左右分布于北京，其次为上淘和感都。行业内不少企业成立于中国人T智能行业兴起的2015年之后，其中2017。Z01R年成立的企业占至行业整体企业数量的80%，数据标记乃至数据产品服务行业整体较为新兴。

但整体来说，投资界对行业投资热情较高，从2015-202O年，数据标注服务行业的投资数量达到33起，其中龙头企业淘天瑞声与202O年登陆科创板，行业发展较为红火。数据显示，到2019年，数据标注行业市场规模已超过25亿元人民币，在未来5年，数据标记及服务行业的年复合增长率将超过15%。市场的快速发展有利于推动行业的进步，同时，有利于中游企业挑选合适的数据服务供应商。

■ 行业发展缺乏核心技术，较容易复制，可替代性强

数据标记行业技术性不强，但对规模的要求较高，需要人力进行准确地识别和转写，对人力的依赖程度较大，属于劳动密集型行业。同时，由于自然人工作的局限性，数据标注的准确度质量只能保持在70%-90%之间，难以达到100%。数据标注行业整体缺乏核心技术，商业模式较容易复制，随着新进入者越来越多，行业内的竞争会进一步加剧。

为了满足企业自我的语音合成训练的要求，部分大型互联网企业建立自由语音标准公司。同时，语音合成产业链上游由于产业自身存在一定局限，因此，产业链上中游一体化或将成为重要发展趋势

■ 大厂设立自有数据标注公司

数据标记行业内的公司主要分为两种，一种为内需驱动型，为的是满足自有公司的需求，中国的一些互联网企业，如百度、阿里巴巴、腾讯等都建立了自有的数据标记众包平台。这类公司一般已经拥有完善的供应商体系和供应商评价机制，标注工具和标注管理方式已经实现标准化管理，因此，对标准供应商在技术实力、质量、及时性和多样化上均有较高要求。

■ TTS企业后向一体化，产业链出现融合趋势

另一种为技术驱动型的，可能本身企业是TTS企业或数据标记工具生产企业，但是在自有产品的生产过程中，也加入了数据标记服务的生产行列。这类企业会根据自己本身的优势，例如TTS企业更加理解客户需求、数据标记工具生产企业借助自己的标记工具提高标记效率等，以此取得行业竞争代热。同时知分数据标记企业为了使业务能够可持续发展而不受到产业自身限制、也开始拓展自己的业务边界，开拓了自有 TTS的产品线，例如作为数据标记龙头企业的海天瑞声开展GPS业务。总体来看，TTS产业链的上中游呈现-体化的融合趋势。

■ 数据标记对人工依赖程度较大，暂时无法被人工智能取代

通过人工智能标记数据在应用层面已经实现，这种标记方式主要是借助之前用人工的方式标记过类似的大量的数据，专门训练一个模型去模拟人去实现标记操作，这种方式在一定程度上可以减轻数据标记的人工工作量。但其并不能实现完全自动化，原因在于实际上人工智能训练数据的错误率较高，需要人工进行校正，因此人工智能只能作为数据标记的一个辅助工具，而不能有效替代人工在数据标记行业的作用。

■ 数据标记行业将朝着高质量，专业化发展

现阶段，数据标记的准硝性在约60%-70%，高质量的数据标记准硝性在约9O，在未来，标注质量将成为竞争的核心因素，在算法模型的不断优化，应用场景的不断多样的趋势下，人工智能训练所要要的数据标记质量和精度将会不断提高，因此保持高准确度将会是数据标注企业的行业核心竞争力。同时，随着应用场景的多元化，涉及较为专业的细分领域，如医疗、教育等数据标记企业也将会突出重围。

语音合成产业链中游——语音合成行业

TTS语音主要分为通用TTS和个性化TTS，通用TTS适用于导航、语音播报、智能客服和大多数语音交互场景，个性化TTS则主要应用于对声音质量较高的教育，长音频、直播以及影视游戏配音等场景当中。

■ TTS语音主要分为通用TTS和个性化TTS，使用场景各不相同

通用TTS发音相对的机械化，声韵比较平淡，但是优点在于通用TTS口齿清断，听者可以准确获取声音信息，因此通用TTs适用于导航，语音播报，智能客服和大多数语音交互场景。由于他对音色，情感上浸有过多要求，因此其制作成本整体面言较为低麻。

个性化TTS在通用TTS的基础上更加注重音色和情感，情感和声音的表现力比通用型TTS更强，这类声音主要应用于对声音质量较高的教育，长音顿，直播以及影视游戏配音等场景当中。现阶段互联网大企业涉足个性化TTS服务这一业务较少，创新性中小企业踊跃出现。基于个性化TTS的复杂程度，相比通用型TTS，个性化TTS的制作成本相对高昂。

■ TTS产品前期投入较多，产品成型后利润较高

作为人工智能工具之一，TTS产品均有一个从模型搭建到深度训练学习到人工智能成型的过程，这其中需要大量的学习数据作为支持，而且要反复纠错，优化TTS的整体算法以达到理想的输出效果。因此，TTS产品在前期需要收入大量的研发成本，包括设备、人工、网络等，研发过程持续较长时间。一旦算法模型训练成熟，TTS产品得以落地，实现商用化，其运营成本较低，主要成本在于人工维护和服务器等，整体利润率较高，超过6O%，市场前景良好。

语音合成产业链下游

语音合成产业链下游——TTS的主要应用领域

随着5G时代的来临，通讯业逐渐发展，社会整体需要快捷高效的信息传播方式，而语音相比于文字的信息传播速度更高。城市的扩大，人口密度的增加也为用户带来大量碎片化时间，语音内容受到社会欢迎，因此，语音合成也找到了用武之地。

■ TTS应用领域非常广泛，一般分为单项应用或嵌入语音交互链

语音合成乃至整个智能语音行业，如何实现商业化落地乃至盈利成为了企业以及投资者关注的重点，语音合成技术可单独使用，也可作为语音交互的重要输出环节，因此，在智能语音应用越来越充分的背景下，语音合成技术应用非常广泛，涵盖公共服务、智能硬件、智慧交通、长音频、泛娱乐、教育等行业。

■ 5G时代和碎片化时间增加带动语音合成发展，助力高效率社会

语音合成产业链下游—TTS在导航领域的应用

导航领域是TTS常用的、普及程度较高的应用场景之一，导航领域对TTS的主要要求为音质清晰，音色较为温和平静，断句清晰，精度高差错小，个性化TTS最早落地于导航领域产品，现如今个性化程度进一步深入。

■ 整体以非交互TTS为核心

导航领域是TS常用的，普及程度较高的应用好器之一。导航领域的TTS数据量较大，语高内容覆盖范围较大，又应用于交通领域，因此导航领域对TTS的主要要求为音质清晰，音色较为温和平静，断句清晰，精度高差错小。导航领域的相关产品，语音部分由交互语音和非交互TTS组成，其中，交互语音的功能占比较小，因此产品整体以非交互TS为核心。

■个性化TS最早落地于导航领域产品

最早的导航领域产品多数使用通用型TTS帮助用户实现听音导航，提高了产品使用的便捷性和驾驶的安全性。随着导航领域产品的逐步成熟，个性化TTS已经成为了差异化竞争的有力工具。

个性化TTS最早落地于导航领域产品。其原因主要在于导航语音的话术较为稳定。只有约20%变量的部分是用TTS合成出来的，基于个性化TTS的早期水平并不成熟，因此，个性化TTS的IP价值首先体现在了导航领域。

以百度地图为例，最早，百度地图通过推出岳云鹏、郭德纲，李佳琦等广受欢迎的明星语音来作为导航语音，吸引用户群体下载和使用软件。随着语膏库的不断扩大。百度地图将不同声音特点，适用于不同季节的语音进行归类，还建立语音排行榜，让用户寻找到自己最喜欢的声音。现阶段，百度推出"g句话定制自己的声音导航'让每个人拥有属于自己的导航语音，使百度地图的导航语音实现进一步个性化。

语音合成产业链下游——TTS在长音频领域的应用

中国用户在网络音频上的MAU已经从2019年的342分钟快速增长至2020年的600分钟，长音频市场未来发展潜力巨大，长音频作品大量都基于文字脚本而来，TTS技术能够大大减少将文字转为语音的时间和财务成本，也为长音频作品带来创新体验。

■ 长音频市场未来发展潜力巨大

长音音主要是指有声阅读。广播剧。声音广播等产品。据OuesIMobile的调研，中国用户在网络音频上的 MAU已经从2019年的34Z分钟快速增长至2020年的600分钟。根据腾讯音乐2020年QZ到Q3两个季度的财报，公司的长音频授权作品数量同比均迅猛增加三至四倍，内容涉及文学作品、广播剧和脱口秀等各种类型。来自Q3财报的数据显示，长音频用户数进一步提升，其MAU渗透率从去年同期的4.7%提高至11.7%，其中长音频P授权数量增至去年同期的四倍持续提升在长音频方面的平均用户时长。长音频市场发展潜力巨大。

■ 长音频发展为个性化TTS开设平台

长音频是个性化TTS发展的有利平台。长音频作品大量都基于文字脚本而来，TTS技术能够大大减少将文字转为语音的时间和财务成本，将广播剧，有声书的制作时间从漫长的几个月时间缩短到几天甚至几个小时。极大的压缩了长音频的制作周期，能够更快节奏的，及时的将长音频作品呈现到用户眼前。

个性化TTS现阶段的语音质量已经发展到了较高的水平，已经完全可以满足市场对于长音频的质量需求，同时个性化TTS的操作灵活，声音效果多样，限制少，能为长音频作品带来个性化的听觉体验。

■ 明星IP助力长音频市场

明星IP已经成为长音频的特色之一，例如喜马拉雅利用明星IP进行演播，从而吸引用户流量。而个性化TS已经可以达到相高的演播水平，能够直接代替明星录音，使长音频的明星IP打造更加快捷，助力明星IP的商业落地。

语音合成产业链下游—TTS在泛娱乐领域的应用

TTS在泛娱乐领域的应用主要涉及二次元、直播、游戏等行业，声音IP价值实际上有较高价值，但现阶段商业化较少，常常被市场所忽略。

■为人物打造独特声音，使声音更站合意象

TTS技术可广泛应用于泛娱乐配音行业，主要应用包括影视配音、游戏配音等。以游戏为例，良好的声感能够极大程度的提高用户的游戏体验，声音也会成为游戏人物形象的一部分，单纯的人工后期配音不仅需要花费大量时间遴选最优质的配音人，还需要考虑人为因素对人工配音的影响，例如人工配音需要休息时间、续集声音的连贯性等。因此，游戏配音将会对游戏的制作产生较大影响，不顺利的游戏配音甚至会推迟游戏的发行时间，影响企业经营。而TTS则只需要输入脚本，便可以快速输出声音，并快速调整，高效的制作出贴合人物形象的声音。

随着二次元ACG等亚文化在中国的兴起，中国的游戏市场逐渐被打开，用户群体越来越多，例如猫耳FM这种二次元延伸类产品的用户量从2016年的730万上升到2020年的1.000万人次，因此，为虚拟人物打造独特也将会是个性化TTS发展的沃土。随着初音未来，洛天依这种纯虚拟偶像的出现，个性化TTS可以为虚拟人物打造一整套标志性的声学系统，为虚拟人物在声音层面为用户留下深刻印象。

■ 声音道具吸引流量

疫情影响和5G通信的完善间接推动了中国直播行业的加速发展，直播产品无论从博主人数到用户量人数都快速增长并且整体粘度较强。部分主播直播时会使用变声器增加趣味性，吸引流量。随着Al技术的逐渐普及，在视觉上，直播已经可以实现主播以虚拟形象出现，而TTS可以帮助主播实现虚拟声音的打造。

声音社交的出现也为TTS找到用武之地，令人愉悦或趣味性的声音道具作为产品特点，吸引年轻用户使用。

语音合成产业链下游——TTS在教育领域的应用

教育领域也是TTS应用的广阔蓝海，随着线上教育受到市场热捧，TTS也在课堂效率、教学方式，教学氛围等方面发挥出其应用优势。

■TTS对线上教育帮助较大

TTS技术在线下教育领域的应用较少，更多的应用于线上教育领域。从数据来看，中国在线教育需求呈增长趋势，市场规模从2016年的1.565.4亿元增长到2019年的3，225.7亿元，年增速保持在25%以上，增长迅速。在此背景下，TTS也迎来了其在教育市场上的应用机遇。TTS技术在教育领域的应用主要有：

能够将教师的语言即时转成文字、字幕等，让学生更好的抓住课堂信息，理解课堂内容，集中注意力，同时课后也较好巩固复习;
利用TTS技术，教师不需要再花费时间进行板书，提升课堂效率，帮助教师借助Al完成简单的语音读题、英文听力出题等辅助工作，将进一步释放老师的备课压力，让老师可以把更多精力投入到教学研究中;
可以联合AR和VR打造虚拟教师形象，使教学方式更加活泼，表现形式更加多元;
减少语言教育中听力练习录制所需要的时间，提升教学效率;
减少教师口音对学生的影响。

■ TTS技术在学前教育作用明显

学前教育中，儿童接收的音频信息尤为关键。TS技术将通过文字识别技术识别的文字转换为语音，实现学前儿童通过智能硬件收听故事的功能，一定程度上促进了学前儿童的阅读量。同时，情感丰富的高拟人化的智能语音能够帮助学前儿童建立语言情感。

语音合成的应用风险

但随着语音合成不断创新突破，应用场景日益增多，其安全风险也将动态演进，将越发具有广泛化、场景化、融合化的特点，在此背景下，语音合成技术也产生了不同等级的应用风险。

■ 语音合成技术在信息安全和法律上存在风险，加强法律规范

个人声纹是—种强生物特征。语音合成技术可以利用这种特征破解加密信息、骗取信任、混淆视听。—日个人声纹信息遭到泄露，语音合成技术得到滥用，则会造成不同等级的安全风险，影响较为广泛。同时，作为人工智能最为成熟的板块，语音合成技术虽然已大量应用于社会生活，但在法律上的权利存在一定的争议。为减轻语音合成在应用而产生的风险，国家应建立法律法规加强对个人信息的保护; 同时，严格审核语音合成行业的准入资质;另外，组织科学家及时研判隐含的技术风险，完善学术规范和监管框架，为科技创新发展提供先进的技术指导和良好的发展环境，是促进社会向智能化快速发展。

语音合成行业政策分析

中国对于人工智能行业寄予较大期望，在政策上给与支持与鼓励。在政策上主要关注技术本身的研究与发展和各个细分的应用

■中国政府大力扶持语音合成及智能语音行业

中国对于人工智能行业寄予较大期望，在政策上给与支持与鼓励。在政策上主要注重两个方向∶ （1）关注技术本身的研究与发展，提高科技创新能力，打造强有力的技术品牌;（2）积极将语音合成技术乃至整个人工智能投入各个应用细分，使之发挥出其应有实力。

语音合成的发展难点与未来

语音合成行业发展较成熟，原有格局难以打破，新进入者只能通过弯道超车或差异化竞争打破僵局，用户的需求将会变得多样，这对语音合成行业也是巨大挑战，在未来，语音合成技术也将逐步打开商用化道路，应用场景将逐渐细化和专业。

一、发展难点

■ TTS行业发展成熟，新进入者难以生存

TTS行业的发展可追溯到1990s，到现阶段，技术发展较为成熟。原有意争者已经占领了结构性优势，保持其原有地位。除非新进入者能够弯道超车，或实现产品差异化，才有可能生存下来。但基于TTS的发展已经较为成熟，因此在技术的突破范围有限。这造成了新进入者难以发展的局面。

■ 市场不买软件，只买硬件

市场对TTS软件的购买意向不高，但对于硬件捆绑软件的接受程度较高，愿意购买带有TTS功能的硬件产品如录音笔，智能音箱等。针对这样的市场形势，一方面，企业可以加强与硬件厂商的合作，推动TTS软件的销售;另一方面，可以更加便捷的方式，如手机软件等，推向市场。

■ 用户要求逐渐增高

随着通信技术和新媒体的发展，用户对于音频的质量要求将会越来越高，不清晰，错误较多的机械音较重的TTS将有可能逐渐被市场淘汰，用户对于TTS语音的清晰度、音色以及情感表现将会更加有更高的要求。这对于TTS的技术以及高质量的TTS的普及有很大的需求，这也意味着高质量TTS技术的成本控制成为TTS行业企业的发展难点。

二、未来

■ 市场对TTS的技术认识不足

实际上，市场上的用户群体对于TTS当前的认识依旧停留在机械化声音程度较高，智能化不足的阶段，而对于情感丰富，智能化程度较高，讲演水平较高，拟人化程度高的TTS认识不足，其至会感到十分惊讶。

要实现TTS技术的商业化落地，从幕后走向前台，被大众所认知，是TTS行业的必由之路。一旦市场对于 TTS技术的认知程度提高，无论是从C端还是B端，TTS的技术均能更好的得以实现。

■ TTS技术将应用于多元场景

TTS的应用场景将会更为多元，专业细分将会更加详细，例如科大讯飞和思必驰主推的医疗场景下的TTS应用。这对于TTS的精度要求将会提升。

报告出品方：头豹研究院

获取该报告请登录【远瞻智库官网】，或点击下方链接：

展开阅读全文

页面更新：2024-03-15

标签：语音行业人工智能产业链标记场景现状音频声音领域未来智能数据数码用户市场产品技术企业

1 2 3 4 5

从语音合成（TTS）的发展探寻智能语音行业的现状与未来

报告摘要

语音合成的定义与结构

语音合成声学系统的发展

语音合成的主观评价标准

语音合成的客观评价标准

语音合成产品质量分析评价

语音合成产业链分析

语音合成产业链上游——数据产品及服务

语音合成产业链中游——语音合成行业

语音合成产业链下游

语音合成的应用风险

语音合成行业政策分析

语音合成的发展难点与未来

基金投顾试点再扩容，乐观看待行业未来业绩表现

问与答：鸿蒙HarmonyOS到底是什么？系统核心优势是什么？

2021年中国汽车智慧运营行业报告

汽车行业7月展望：缺芯有望缓解，拥抱电动智能

华为鸿蒙实测领先性：以WPS为例

消费建材长期趋势向好，集中度提升趋势下看好消费建材企业成长性

全渠道泛家居平台服务商——美凯龙：轻资产、降杠杆、重运营

云办公：借谷歌微软之道，看金山办公如何破协作之局

中兴通讯深度报告：被低估的 ICT 全球领军企业

碳排放权交易事项发布，三大交易方式并存

2025基本建立资源循环型产业体系，资源循环利用产值达到5万亿

下雨天自家折腾电脑

妙可蓝多，乳制品行业新赛道，奶酪龙头加速崛起

广汽集团：进击的汽车巨头，电动智能拾级而上

童年回忆杀手

基金投顾试点再扩容，乐观看待行业未来业绩表现

2021年中国汽车智慧运营行业报告

汽车行业7月展望：缺芯有望缓解，拥抱电动智能

消费建材长期趋势向好，集中度提升趋势下看好消费建材企

中兴通讯深度报告：被低估的 ICT 全球领军企业

妙可蓝多，乳制品行业新赛道，奶酪龙头加速崛起

广汽集团：进击的汽车巨头，电动智能拾级而上

新能源汽车动态点评：6月新势力造车创新高，智能电动变革

旅游业的未来

未来所有知识都值得被视频重新记录一遍（观：B站12周年演