阶跃星辰再推开源模型,与ACE Studio联合发布ACE-Step音跃大模型


5月7日,人工智能基础大模型公司阶跃星辰与数字音乐平台 ACE Studio ,联合发布开源音乐大模型“ACE-Step”(音跃),据悉模型参数量为3.5B,具备快速高质量生成、强可控性、易于拓展等特点,同时支持多种语言的歌曲生成,涵盖中文、英文、日文、韩文、西班牙文、俄语等 19 种语言。

阶跃星辰方面介绍,作为一个通用性强的音乐基础模型,ACE-Step 支持包括 LoRA (定制音乐风格)和 ControlNet(人声驱动伴奏生成) 在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务,相比此前的开源音乐模型,具有真·全曲生成、精准时长控制、灵活输入格式、多语言与多风格生成四大优势。

另外,当前技术普遍面临生成速度、音乐连贯性和可控性之间的固有权衡。例如基于LLM的模型(如Yue、SongGen)擅长歌词对齐,但存在推理速度慢和音质问题;而扩散模型(如DiffRhythm)能实现更快合成,却往往缺乏全局结构连贯性。而ACE-Step通过融合扩散生成、Sana深度压缩自编码器(DCAE)和轻量级线性Transformer架构,成功弥合了这一鸿沟。

ACE-Step 模型架构图

该模型在训练阶段创新性地采用MERT和m-hubert实现语义表征对齐(REPA)技术,从而加速收敛。实验表明,在A100 GPU上仅需20秒即可生成长达4分钟的音乐,比基于LLM的基线快15倍,同时在旋律、和声与节奏维度均展现出更优的音乐连贯性和歌词对齐能力。ACE-Step也能保留精细的声学细节,支持语音克隆、歌词编辑、混音改编及分轨生成(如歌词转人声、演唱转伴奏)等高级控制功能。

ACE-Step 目前提供两种生成模式:快速和慢速模式。最快 15 秒即可生成一整首歌,慢速模式也仅需 32 秒。

同时,ACE-Step 不仅仅是一个“生成器”,还是一个全能的“编辑器”,它为创作者提供了两个关键功能:EditRetake/Repaint。

其中,Edit 功能可以使创作者在不改变旋律的情况下,精确修改已生成歌曲的歌词内容、语气或情感表达,确保每行歌词与整体音乐风格完美契合。

而如果生成的作品不完全符合创作需求,创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲,或者通过 Repaint 对特定部分(如旋律或歌词)进行局部调整,进一步优化作品。

据悉,作为全球开源可商用的SOTA级音乐大模型,ACE-Step已开放GitHub代码库及API接口。开发者可基于其构建AI作曲、智能配乐、虚拟歌手等应用,而音乐人则能实现从灵感生成到混音母带的全程AI辅助。

展开阅读全文

更新时间:2025-05-09

标签:科技   模型   星辰   音乐   歌词   连贯性   慢速   创作者   人声   功能   可控性   旋律

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top