kaldi语音活动检测VAD和噪音处理思想

背景

kaldi语音识别开源项目博大精深,锐英源在深入学习,也把学习心得分享出来,致谢kaldi开源项目团队。

Kaldi 中是否有用于语音活动检测的工具/脚本/模型?如果它们存在,我们如何使用它们?仅识别具有音乐或噪音的音频文件中的语音片段将非常有用。

不是这里的专家,所以可能有一个内置的。但是,通过管道 Sox 进行 VAD 并将其构建到方案甚至“wav.scp”中以获得相当好的结果是相当简单的。

有没有人尝试在没有 VAD 的嘈杂条件下使用 Kaldi 解码器?
目前,我们正在一个对话系统中使用 Kaldi,用户经常在嘈杂的街道上给我们打电话,我们希望消除我们的 VAD。
任何人都可以建议如何对静音和噪音进行建模以及如何训练相应的模型(更可靠地估计静音模型)?
Kaldi 工具包中是否提供任何特殊培训?如果没有,实施起来有多难?

我们用于 BABEL 之类的基本方法是训练一个系统,该系统具有静音音素,可能还有噪音音素(但这些需要在训练记录中标记为单词)。您可以
针对不同类别的噪音使用不同的噪音手机:例如咳嗽、笑声、非语音噪音等。然后只需在数据上运行识别器即可。

有几个人提供了用于语音活动检测的代码,但我对接受它持谨慎态度,因为里面的任何东西都很难取出或停止支持,我宁愿等到看起来有一个标准的、确定的方法。

所以我们可以训练不同类别噪声的模型,但我们不知道如何去做。例如,对于静音模型,我们不做任何事情,我们不会在转录中编写任何静音音素,而且似乎已经过训练。我们有一些语音文件或噪音不清晰的音频文件,那么我们应该如何以最佳方式处理它们?我们在 KALDI 中找到了一些用于 VAD 的代码(compute-vad.cc):http ://kaldi.sourceforge.net/tools.html 。是否有使用此功能的示例?

在构建模型时,静音音素会被处理并插入到脚本中。看看词典 fst 的构造。如果某些数据是高质量转录而其他数据是低质量没有噪声标记),则可能有机会创建利用高质量语音数据的脚本来获取低质量数据上的噪声标记。

顺便说一句,该 VAD 代码不适用于语音识别应用程序,它用于说话者和语言 ID。这是非常基本的,基于能量的,并且不能确保最小段长度(逐帧决定)。

很抱歉恢复旧线程,但问题不断出现。拥有 Kaldi 内部 VAD 不是更有意义吗? 实施高质量的 VAD 需要重新生成 Kaldi 在内部使用的所有功能并检查识别状态 - 我们是否识别了音素?我们是在一个词中还是在词之间? 显然,这不仅仅与功率和平滑度有关。

是的,它在我的待办事项清单上;我有一个学生在做这个。 现在在在线解码设置中,您应该使用解码器的回溯来确定您是否处于沉默状态。寻找名称中带有“端点”的选项。

展开阅读全文

页面更新:2024-04-16

标签:噪音   语音   音素   转录   解码器   静音   噪声   嘈杂   音频文件   脚本   标记   模型   思想   代码   数据   系统   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top