VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

自从第一个文本到语音（TTS）模型发布以来，研究人员一直在寻找让计算机系统产生语音的方法，微软的最新模型VALL-E是在这方面的一个重要进步。VALL-E是一个基于转换器的TTS模型，只需听到三秒钟的声音样本就能生成任何声音的语音。这比以前的模型有很大的改进，以前的模型需要更长的训练时间才能生成新的声音。

对于计算机行业来说，VALL-E是一项惊人的技术壮举，有可能改变我们与数字媒体互动的方式。语音的音调、魅力和风格都在生成的语音中保持不变，这是在使TTS系统听起来更自然方面迈出的重要一步。

微软会不会基于这项技术有更多运用目前还不清楚，然而，微软已经发布了该模型的几个实例，很明显，这是TTS技术的一个重大进步。

您可以在这里收听范例：

https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/

展开阅读全文

页面更新：2024-05-21

标签：微软语音模型声音壮举音调转换器研究人员样本文字技术

1 2 3 4 5

VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

2023年1月10日IOS的AppStore软件限免3个APP推荐

初选入围案例 - 天津“城市大脑”建设

大数据ClickHouse进阶（四）：ClickHouse的索引深入了解

《GD32开发实战指南》第11章 CPU的高级代理-DMA

微信视频号用户总时长接近朋友圈80%，原创内容播放量提升350%

iPhone14 Pro最新价格确定，全系跌至新低，256GB版本入手更划算

K7安全实验室猜测中国黑客使用Windows错误报告工具开展网络攻击

天玑9200发布了几个月了，为什么发布的新机却都在用骁龙8GEN2？

望远镜与天文观测：突破人眼的极限

《木卫四协议》多位开发者没列入致谢名单因高管不喜欢他们

雅迪VFLY高光亮相2023 CES，为电摩圈层再添赛道力作

65W TDP，性能给力，AMD Zen4架构锐龙7600/7700/7900处理器首测

首篇！中国配药机器人应用研究首次登上国际知名学术期刊

字节跳动埋点成本治理实践

中国自主研发的大国重器，斩获世界第一，外媒：美国极力追赶中国

百度 Create AI开发者大会，最强技术天团邀约全球开发者

2022汽车行业十大年度创新技术：数“智”赋能，体验先行 -

微软将在今日彻底停止对Windows 7/8.1的安全更新和支

苹果、微软、英特尔、IBM，说说四十多年前的三国时代

百度公布智能搜索等十大最新技术进展，李彦宏：AI 商业化

如何应用超声技术准确检测低温环境下的锂离子电池荷电

又一家！雷军卸任小米软件技术公司董事长，此前已卸任多家

中国科技公司强势回归CES：展示新技术也不回避差距

雅马哈 A-S2200 复古好声音

华为智慧园区技术解决方案[智慧园区][PPT资料]