IT之家 12 月 24 日消息,阿里通义今日官宣,Qwen3-TTS 家族新推出两款模型,音色创造模型 Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。IT之家附模型主要特点如下:
Qwen3-TTS 支持通过自然语言描述生成定制化的音色形象。用户可以随意输入声学属性、人设描述、背景信息等自由描述,轻松创造出自己期望的声音形象。
可控生成:在 InstructTTS-Eval 中,Qwen3-TTS 综合表现显著优于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试中也超越
Gemini-2.5-pro-preview-tts。

Qwen3-TTS 支持通过自然 3s 级别音色克隆,并且可以基于克隆的音色生成多语种音频,同时对复杂文本和野生音频都有较高的鲁棒性。
多语种音色克隆:在 MiniMax TTS Multilingual Test Set 上,Qwen3-TTS 在中、英、法、意大利等语项的内容稳定性优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview;其平均词错误率(WER)位居第一。

Qwen3-TTS-Voice-Design API 文档:
更新时间:2025-12-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号