智东西AI前瞻(公众号:zhidxcomAI)
作者 | 江宇
编辑 | 漠影
智东西AI前瞻5月28日消息,今日,腾讯混元重磅发布并开源了其最新的语音数字人模型——HunyuanVideo-Avatar。该模型由腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室MuseV技术联合研发,在AI视频生成领域实现了“一张照片、一段音频即可生成高质量唱歌或说话视频”的突破。
据官方介绍,HunyuanVideo-Avatar模型的核心亮点在于其高效的生成能力和出色的口型同步效果。它不仅能根据输入的音频精准驱动人物面部表情和唇形,还能保持视频中人物身份和形象的稳定性。
HunyuanVideo-Avatar模型支持头肩、半身与全身多种景别,以及多风格、多物种与双人场景,为视频创作者提供了前所未有的创作自由。
用户只需上传人物图像与音频,模型即可自动理解图片与音频内容,例如人物所处的环境、音频所蕴含的情感等,并生成包含自然表情、唇形同步及全身动作的视频,让静态的人物图像“活”起来。
例如,上传一张女孩盘坐在森林的,身前是一团篝火的照片与一段歌曲,模型会理解到“一个女孩在森林空地上唱歌,她身前是一堆熊熊燃烧的篝火,火苗欢快跳跃,橘红色的火光映照在她身上,为画面增添了温暖的氛围”。
为了实现这一突破,HunyuanVideo-Avatar模型采用了多项创新技术,使其能够生成更自然、生动的数字人视频:
HunyuanVideo-Avatar模型提供了便捷的操作流程,用户无需专业技能即可进行数字人视频的创作。
用户可在腾讯混元官网上体验该模型的单主体功能,当前主要支持对单个数字人进行视频生成,整个操作流程非常简单。
上传一张清晰的人物照片和一段不超过14秒的音频,稍作等待,一段数字人视频就生成了。
值得注意的是,对于本地部署,这类AI视频生成模型通常对显卡有一定要求,推荐使用具备较高显存的GPU。此外,本地部署没有视频时长限制,但生成时长与显卡性能呈线性关系,即更长的视频生成需要更强的显卡支持。
目前,在线网页版支持生成最长14秒的数字人视频。
综合研究团队在论文中公布的实验结果,腾讯混元HunyuanVideo-Avatar模型在多项关键指标上展现了卓越性能。
在主体一致性、音画同步方面,HunyuanVideo-Avatar效果超越开闭源方案,处在业内顶尖水平;在画面动态、肢体自然度方面,效果超越开源方案,和其他闭源方案处在同一水平。
来自技术报告(
https://arxiv.org/pdf/2505.20156)
具体来看,在音画同步(Sync-C)和身份保持(IP)方面,HunyuanVideo-Avatar在CelebV-HQ和HDTF数据集上的音画同步指标分别为4.92和5.30,优于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等现有方法。
在全身测试集上,该模型在音画同步方面达到5.56,也超过了Hallo3、Fantasy和字节跳动旗下的OmniHuman-1。
用户研究结果进一步表明,在身份保持(IP)和唇语同步(LS)方面,HunyuanVideo-Avatar均获得最高评分(IP 4.84,LS 4.65),超越了Hallo3、Fantasy和字节跳动旗下的OmniHuman-1。
在画面动态(MD)和肢体自然度(FBN)方面,根据消融研究(Ablation Study)的结果,HunyuanVideo-Avatar在画面动态上达到了4.127,在VQ(视频质量)上达到4.16,优于其他两种注入模块方式。
在用户研究中,HunyuanVideo-Avatar在肢体自然度方面得分3.88,虽然略低于字节跳动OmniHuman-1的4.18,但仍优于Hallo3和Fantasy。
这表明该模型在保持人物动态自然度方面,已达到与领先闭源方案相近的水平,并超越了其他开源方案。
相较于传统工具仅支持头部驱动,HunyuanVideo-Avatar模型还支持半身或全身场景,显著提升了视频的真实感和表现力。
此外,该模型还支持多风格、多物种与多人场景,能够生成包括赛博朋克、2D动漫、中国水墨画,以及机器人、动物等多种风格的视频,拓展了数字人技术的应用范围。
HunyuanVideo-Avatar模型适用于短视频创作、电商、广告等多种应用场景。
它可以生成人物在不同场景下的说话、对话、表演等片段,快速制作产品介绍视频或多人互动广告,有效降低制作成本,提高生产效率。
目前,HunyuanVideo-Avatar技术已在腾讯音乐的听歌陪伴、长音频播客以及唱歌MV等多个场景中得到应用:
HunyuanVideo-Avatar模型的发布与开源,为数字人技术领域注入了新的活力。它通过简化数字人视频内容的生成流程,展现了拓展数字内容创作边界的潜力。
随着此类技术的不断发展和应用,数字人有望在未来的社会生产和日常生活中扮演日益重要的角色,为多个领域带来新的可能性。
更新时间:2025-05-30
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号