开源语音工具包+1 纯PyTorch的SpeechBrain

距离 Mirco Ravanelli 宣布打造新的语音工具包过去了一年多，SpeechBrain 真的如期而至。SpeechBrain 诞生的主要宗旨是：够简单、够灵活、对用户友好。

秉承着让语音开发者更轻松的原则，Yoshua Bengio 团队成员 Mirco Ravanelli 等人曾经开发了一个试图继承 Kaldi 的效率和 PyTorch 的灵活性的开源框架——PyTorch-Kaldi,但据开发成员本人认为「还不够完善」。所以，一款新的一体化语音工具包 SpeechBrain应运而生。

作为一个基于 PyTorch 的开源一体化语音工具包，SpeechBrain 可用于开发最新的语音技术，包括语音识别、说话者识别、语音增强、多麦克风信号处理和语音识别系统等，且拥有相当出色的性能。团队将其特征概况为「易于使用」、「易于定制」、「灵活」、「模块化」等。

总体来说，SpeechBrain 有以下几大亮点：

开发团队与 HuggingFace 集成一些预训练模型，这些模型具备可运行推理的接口。如果 HuggingFace 模型不可用，团队会提供一个 Google Drive 文件夹，包含所有对应的实验结果；
使用 PyTorch 数据并行或分布式数据并行来进行多 GPU 训练和推理；
混合精度，加快训练速度；
透明且完全可自定义的数据输入和输出 pipeline。SpeechBrain 遵循 PyTorch 数据加载器和数据集样式，使用户能够自定义 I / O pipeline。

另外，SpeechBrain 未附属于任何机构，团队成员来自 Mila 研究所、Nuance、杜比实验室、英伟达、三星、Viadialog 等实验室和企业单位。最初的两位负责人是 Mila 研究所博士后 Mirco Ravanelli 和 Avignon 博士生 Titouan Parcollet。目前，Speechbrain 项目还在完善中，也欢迎更多开发人员加入。

文章部分素材来源：机器之心

展开阅读全文

页面更新：2024-05-16

标签：三星工具包杜比语音英伟应运而生博士后分布式实验室模型灵活研究所团队成员数据

1 2 3 4 5

开源语音工具包+1 纯PyTorch的SpeechBrain

娱乐至死，我劝你不要再看短视频了

每小时“搬砖”800块，最大化释放动力仓储机器势能

猎奇贴｜这都是些什么奇奇怪怪的“语言”

读懂“十四五”开局，信创产业发展新蓝海格局已现

什么是低代码（Low-Code）？怎么突然就火了？（上篇）

水火无情，欧洲最大数据中心OVH也没逃过

建议收藏，数据库为什么会丢失数据？（上）

刷新药物分子性质预测榜单，AI药物发现迎来惊人突破

开源盈利太难，企业无法幸免？

“修剪”模型大小完成推理倍速提升真不愧是谷歌

虔诚焚香的信徒将大佛供入了太空

泱泱大国我们自然用好技术采好棉花

不断被黑客挑战的Twitter，除了被群嘲，到底经历了什么？

千盼万盼 7-Zip for Linux终于正式发布了

90天包换、2年保修，699元起售，这样的酷派COOL20做备用机也不错

水火无情，欧洲最大数据中心OVH也没逃过

建议收藏，数据库为什么会丢失数据？（上）

“修剪”模型大小完成推理倍速提升真不愧是谷歌

18GB+512GB+骁龙888+144Hz+三星E4屏幕，游戏党确定不了

建议收藏，数据库为什么会丢失数据？（下）

一起来读｜艾瑞2021年中国数据库行业研究报告（上）

看不见的数据抓手——网络爬虫

8小时洗200万条数据贝叶斯「数据清洗」机器人或将击

一起来读｜艾瑞2021年中国数据库行业研究报告（下）

关于人类通病“拖延症”有人认真用数据研究了一番