AGI技术底座再夯实,云知声夺冠VoxSRC 2023

2023年8月20号,最后一届VoxSRC Workshop 在都柏林召开。VoxSRC 2023 国际说话人识别竞赛公布比赛榜单,云知声团队夺得Track1(固定训练集说话人确认)第一名、Track2(开放训练集说话人确认)第二名的优异成绩。

Track1名次

Track2 名次


VoxSRC是由 University of Oxford(牛津大学)、Facebook AI Research(facebook AI研究院)、Google Research(谷歌研究院)等组织联合发起的国际说话人识别竞赛,是在说话人识别领域最具影响力和权威性的国际赛事之一。

VoxSRC 2023测试集数据来自访谈、新闻、谈话、辩论等多个场景,包括专业编辑音频和随意的谈话音频,同时混杂着笑声、其他说话人噪声等复杂的背景噪音,涉及跨年龄、跨语种说话人识别,同时今年的测试数据继续加大难度,专注于短语音说话人识别,音频时长大部分在2-3s区间,是VoxSRC有史以来最难的一届。

在此次竞赛中,云知声采用并进一步优化了当前最领先的算法。这些算法包括基于ResNet系列主干网络,MQMHA pooling,以及融合了Sub-center和inter-topK的Large-margin损失函数。此外,云知声还实施了多阶段训练调优策略等技术。

除此之外,基于对比赛任务的深刻理解,云知声团队首次提出了Consistency Measure Factor(CMF) 算法,即建模音频“说话人特征的一致性”,并将其引入说话人相似度决策中,大幅提升了说话人识别的准确率。同时,依托云知声大规模算力中心,采用大规模模型训练框架,训练出ResNet314、ResNet518说话人模型。凭借对“说话人算法”的创新性研发和超强力的“算力”支持,云知声团队在Track1(固定训练集说话人识别)赛道以minDCF(最小检测代价函数)0.085、EER(等错误率)1.588%的卓越表现,一举夺得本次大赛冠军。

Track 1 (Verification fully supervised, closed)

Track 2 (Verification fully supervised, open)

值得注意的是,云知声团队将Track1(官方固定训练数据)赛道的结果,直接提交到Track2(可用任何规模数据)赛道,却依然取得了第二名的优异成绩,这充分证明了其算法的出众性和领先性。

云知声:通过通用人工智能(AGI)创建互联直觉的世界

云知声AI技术体系及U+X战略

作为中国AGI技术产业化的先驱之一,云知声于2016年建立了Atlas人工智能基础设施,并据此开发了具有通用能力的专有大模型山海(UniGPT),成为公司技术平台云知大脑(UniBrain)的新核心,与多模态感知与生成、知识图谱、物联平台等各类智能组件相结合,为云知声智慧物联、智慧医疗等业务提供高效的产品化支撑,推动“U(云知大脑)+X(应用场景)”战略落实,践行公司使命:“通过通用人工智能(AGI)创建互联直觉的世界”。

说话人识别技术,作为云知大脑(UniBrain)的重要组件,已在智能家居、车载、客服等领域广泛应用,包括身份识别、个性化服务、角色分离等。此次夺冠,进一步验证了云知声的AI技术实力,也将进一步通过云知大脑提供业界领先的说话人感知技术能力,以及更好的人机交互体验和分析决策能力,夯实云知声AGI技术底座,推动山海大模型在各领域的广泛应用,为千行百业的智慧化升级注入更强大的AI动力。

未来,云知声将继续坚定走在技术研发的前沿,不断推动其在AGI相关技术的研发突破,为各行各业带来新的增长范式与无限可能。

展开阅读全文

页面更新:2024-02-29

标签:都柏林   技术   夯实   人工智能   赛道   底座   算法   大脑   模型   音频   说话   团队

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top