kaldi在线识别静音分段识别长时间语音

锐英源软件对经典开源项目有大量翻译，翻译内容技术层次较高，对初学者有深究意义。有幸浏览到的朋友请关注头条号，可以获取最新更新。

背景

长时间语音分段优化识别是语音识别产品化需要完成的任务，锐英源顺利完成了任务，在完成时参考了kaldi邮件列表里的一些讨论，本文是讨论内容翻译，链接在本文尾部，对kaldi开源团队致谢。

正文

我正在处理 kaldi 用户列表，因为我想带给人们注意这个对在线沙箱的最新承诺。在这个提交中，我演示一个脚本，其中训练神经网络以用于在线解码
WSJ 语料库（其输入是原始 MFCC 和在线估计的 iVector），以及然后在 RM 配方中，我们采用该 WSJ 神经网络的隐藏层和在它上面训练一个输出层。
结果几乎与最好的多通道、自适应系统一样好，但是这是单程解码。（RM 结果约为 1.6% WER；最好的多通单系统约为 0.5）。
Karel，我确定你一直在研究类似类型的东西，或者很容易可以并且您可能希望为您的应用程序创建类似的演示脚本设置，我们允许其中一个示例设置依赖于另一个。我想尽快做的事是从更大的设置（WSJ）制作源模型，WSJ可在线下载（例如在http://www.openslr.org），因此人们可以下载一个好的神经网络，他们可以在其上训练输出层，为他们自己的数据。
在在线沙箱^/sandbox/online中，我说的脚本在egs/rm/s5/local/online/run_online_decoding_nnet2_wsj.sh

我目前正在实验性听写中使用旧的在线解码器系统。旧的在线解码器有两个我需要的功能：
中间解码假设和静音分割，即我可以解码任意长的语音并使用中间结果作为反馈给用户。
我对转向新的在线解码设置非常感兴趣。然而，我看到只有一个语音解码器（一个为解码相对较短的话语）目前正在实施。是有计划实施“连续”解码器吗？如果没有，丹尼尔可以吗
也许给我一些关于我做这件事有多困难地提示我自己（我对 Kaldi 已经很熟悉了）。

这两个功能都受支持。虽然我公平地证明它简短的话语，框架中没有任何东西可以阻止它
用于任意长的话语。例如，在 online-gmm-decoding.h 中，您会看到函数

GetLattice

（）。这可以在任何时候调用，并可用于获取最佳路径。如果你想经常这样做，还有更多获得最佳路径的有效机制，但尚未在这个级别（如果你想添加它，那就太好了）。使用的解码器
SingleUtteranceGmmDecoder 内部称为 LatticeFasterOnlineDecoder。
这有函数 BestPathEnd 和 TraceBackBestPath 可用于有效地追溯最佳路径。你会看到它们被用于

online-endpoint.cc

它们可用于向SingleUtteranceGmmDecoder 类添加函数，函数具有以下的签名：

void SingleUtteranceGmmDecoder::GetBestPath(bool end_of_utterance, Lattice *best_path) const;

这将有效地获得最佳路径。（您可以使用 ConvertLatticeToLinear，IIRC，将其转换为对齐和字序列）。同样的事情可以在代码的 nnet2 版本中完成，
在 online-nnet-decoding.h 中。

我不确定你所说的静音分割是什么意思，但有已经是端点检测的框架；这可能与你在谈论的什么相同。

我将在 9 月 15 日之后使用新的在线解码设置。
我想实现的第一件事是 GetBestPath 方法：这有函数 BestPathEnd 和 TraceBackBestPath 可用于 Tanel：如果你打算早点实施，请告诉我。
否则，我将在 9 月的最后两周实施它。

通过静音分割，我的意思是解码器将音频分割为静音：它在更长的时间内“完成”当前解码当语音发生时，沉默发生并开始解码新的伪话语
重新开始。这就是旧的在线解码器有效地执行的操作。

1 小时对于解码器来说太长了。为了很好地处理这个问题，您可能会使用当前存在的终结点代码，以及何时到达它判断为终结点的位置
（它是可配置的），您的代码会以某种方式写出当前输出并初始化一个新的解码器对象。
这将在应用程序级别处理，而不是由解码器对象本身，但这并不难。

英文

https://sourceforge.net/p/kaldi/mailman/kaldi-users/thread/CAEWAuyS1jWkXtpa%2BRAQkNO2oBFbO1UFX4t5x2MFTa25pSN2e7Q%40mail.gmail.com/#msg32694513

展开阅读全文

页面更新：2024-03-11

标签：在线静音丹尼尔语音神经网络解码器应用程序脚本路径函数演示框架话语代码系统科技

1 2 3 4 5

kaldi在线识别静音分段识别长时间语音

背景

正文

英文

Rust、Rust开源、Rust教程和Rust开发

从高德交通物联网平台谈人机交互的进化

Go、Go开发要点、Go语言入门

德国Accustic Arts 全新第四代AMP II-MK4后级功率放大器

集成灶安装前必看，避坑指南来啦

为什么集成灶吸烟效果那么好？看完这篇你就知道了

集成灶是否值得买？金帝集成灶告诉你答案

金帝集成灶产品喜获“高效净化环保之星”荣誉称号

Max Digital获波兰Ferrum Audio 中国区总代理

新世代 iCS 单结晶银导体：Crystal Connect Monet USB 数位线

金帝双腔蒸烤集成灶荣获2021创新产品“时尚之星”奖

集成灶和传统油烟机哪个好？看完对比你就知道了

一个厨房，2台金帝，创造美好厨房生活

想做开放式厨房，选油烟机好还是集成灶好？

小米空调代工厂

kaldi语音活动检测VAD和噪音处理思想

VxWorks操作系统简介和VxWorks调试方式总结

热烈祝贺郑州双创大会-锐英源软件以语音识别为主题参

锤子科技从天猫撤店手机、TNT正在甩货清仓

锤子科技或彻底告别手机：只清仓不补货坚果Pro无货只剩

荣耀业务部副总裁嘲讽小米：科技标杆不是靠高喊战斗口号

人工智能培训、人工智能代码培训、人工智能算法培训

网红收音机猫王连推三款新品，联合腾讯云小微玩出优雅科

Temi机器人开启预售腾讯云小微智能语音交互服务升级

腾讯云小微联合格力打造AI语音空调助力智能家居新发