kaldi语音活动检测VAD和噪音处理思想

背景

kaldi语音识别开源项目博大精深，锐英源在深入学习，也把学习心得分享出来，致谢kaldi开源项目团队。

Kaldi 中是否有用于语音活动检测的工具/脚本/模型？如果它们存在，我们如何使用它们？仅识别具有音乐或噪音的音频文件中的语音片段将非常有用。

不是这里的专家，所以可能有一个内置的。但是，通过管道 Sox 进行 VAD 并将其构建到方案甚至“wav.scp”中以获得相当好的结果是相当简单的。

有没有人尝试在没有 VAD 的嘈杂条件下使用 Kaldi 解码器？
目前，我们正在一个对话系统中使用 Kaldi，用户经常在嘈杂的街道上给我们打电话，我们希望消除我们的 VAD。
任何人都可以建议如何对静音和噪音进行建模以及如何训练相应的模型（更可靠地估计静音模型）？
Kaldi 工具包中是否提供任何特殊培训？如果没有，实施起来有多难？

我们用于 BABEL 之类的基本方法是训练一个系统，该系统具有静音音素，可能还有噪音音素（但这些需要在训练记录中标记为单词）。您可以
针对不同类别的噪音使用不同的噪音手机：例如咳嗽、笑声、非语音噪音等。然后只需在数据上运行识别器即可。

有几个人提供了用于语音活动检测的代码，但我对接受它持谨慎态度，因为里面的任何东西都很难取出或停止支持，我宁愿等到看起来有一个标准的、确定的方法。

所以我们可以训练不同类别噪声的模型，但我们不知道如何去做。例如，对于静音模型，我们不做任何事情，我们不会在转录中编写任何静音音素，而且似乎已经过训练。我们有一些语音文件或噪音不清晰的音频文件，那么我们应该如何以最佳方式处理它们？我们在 KALDI 中找到了一些用于 VAD 的代码（compute-vad.cc）：http ://kaldi.sourceforge.net/tools.html 。是否有使用此功能的示例？

在构建模型时，静音音素会被处理并插入到脚本中。看看词典 fst 的构造。如果某些数据是高质量转录而其他数据是低质量没有噪声标记），则可能有机会创建利用高质量语音数据的脚本来获取低质量数据上的噪声标记。

顺便说一句，该 VAD 代码不适用于语音识别应用程序，它用于说话者和语言 ID。这是非常基本的，基于能量的，并且不能确保最小段长度（逐帧决定）。

很抱歉恢复旧线程，但问题不断出现。拥有 Kaldi 内部 VAD 不是更有意义吗？实施高质量的 VAD 需要重新生成 Kaldi 在内部使用的所有功能并检查识别状态 - 我们是否识别了音素？我们是在一个词中还是在词之间？显然，这不仅仅与功率和平滑度有关。

是的，它在我的待办事项清单上；我有一个学生在做这个。现在在在线解码设置中，您应该使用解码器的回溯来确定您是否处于沉默状态。寻找名称中带有“端点”的选项。

展开阅读全文

页面更新：2024-04-16

标签：噪音语音音素转录解码器静音噪声嘈杂音频文件脚本标记模型思想代码数据系统科技

1 2 3 4 5

kaldi语音活动检测VAD和噪音处理思想

背景

郑州市人力资源市场求职流程、郑州市人力资源市场求职亮点

Speex、SpeexDSP、音频DSP库、音频降噪库

VxWorks操作系统简介和VxWorks调试方式总结

美食映照美好人生

大龄程序员感悟

软件开发困难、软件开发困难原因、软件开发困难的根本原因

热烈祝贺郑州双创大会-锐英源软件以语音识别为主题参展

养生不要怕麻烦-出门为什么带两双鞋

小米2019年强推拍照功能表面冲着华为其实要抢OPPO用户

拼多多账上有22亿美元再融资10亿美元唯一目的战京东

锤子科技从天猫撤店手机、TNT正在甩货清仓

小米20日发小米9：股价大涨6.8% 小米8将降价促销

去年芯片采购前十出炉：华为联想小米上榜 OV落榜

王川开怼华为：小米8拍照比友商好雷军秒删用料比友商贵3倍微博

锤子科技或彻底告别手机：只清仓不补货坚果Pro无货只剩坚果R1

VxWorks操作系统简介和VxWorks调试方式总结

热烈祝贺郑州双创大会-锐英源软件以语音识别为主题参

锤子科技从天猫撤店手机、TNT正在甩货清仓

锤子科技或彻底告别手机：只清仓不补货坚果Pro无货只剩

荣耀业务部副总裁嘲讽小米：科技标杆不是靠高喊战斗口号

人工智能培训、人工智能代码培训、人工智能算法培训

人工智能数据处理、AI数据处理

网红收音机猫王连推三款新品，联合腾讯云小微玩出优雅科

Temi机器人开启预售腾讯云小微智能语音交互服务升级

腾讯云小微联合格力打造AI语音空调助力智能家居新发