我们的声音里到底藏了什么?

近几年,语音识别技术越来越普及,当我们对着音箱喊出一条命令时,音箱到底是如何知道我们到底说了什么?我们天天都在用的语音里面到底藏着什么信息呢?语音识别通常需要对声音信号进行预处理,把一些隐藏的信息提取出来,这里就给大家介绍一种常见的预处理技术-Fbank。

下图是一段语音信号的波形图,描述了声音的大小随着时间的变化关系。

我们的声音里到底藏了什么?

这张图里只能看到一个个的“山峰”,山峰越高,代表能量越强,声音越大。可是仅从这张图上只能看出能量随时间的波动,因此需要对这个信号进行一个变换,变换流程可以描述为预加重、分帧和加窗->快速傅里叶变换->取绝对值或平方->Mel滤波->取对数。听起来很复杂,但是其核心思想就是,把随时间不停变化的声音截断成一个个稳定的片段,提取频域信息后再按照人耳的听觉习惯进行调整就可以了。变换以后的信号见下图,是不是看起来就精彩多了?

我们的声音里到底藏了什么?

这句话内容是“放一首抗战电影”,每个字在图中的位置已经进行了标注,可以清晰的看到里面有很多横向条纹,横向条纹就是发音中的元音,条纹的波动就代表着声音中元音随着时间的变化,在“首”和“抗”这两个字中可以清晰的看到分成了两段,前半段没有条纹的部分就是发音中的辅音(sh和zh),后半段条纹的部分就是发音中的元音(ou和ang)。经过这样的变换,就可以把语音信号清晰的展现出来啦。

当然,fbank只是语音信号变换的一种方式,另外这也只是语音识别的第一步。语音识别在智慧家庭中有着广阔的应用前景,中国移动智慧家庭运营中心会持续提升语音识别能力,致力于提升大家家庭生活的便捷度、舒适度和智能度。

展开阅读全文

页面更新:2024-05-27

标签:声音   元音   下图   条纹   山峰   横向   发音   音箱   语音   能量   信号   清晰   智慧   代表   数码   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top