单通道语音唤醒常应用于TWS耳机、智能手表等边缘设备上,作为语音助手的“守门员”。各信噪比下的唤醒率、每日误唤醒、唤醒延迟、模型参/算量是衡量语音唤醒算法性能的若干关键指标。低信噪比下唤醒率低,一直是语音唤醒的应用痛点和技术难点。
一方面,算法工程师可扩大唤醒模型或保证参数精度(如不用int8量化,保持f32),来保证分类边界的复杂度与精细度理论上限,并在数据增强阶段以不同噪声种类、不同信噪比充分加噪,以及卷混响,来喂饱模型,以充分而细致地分开正、负样本。之所以提到分类边界,是因为语音唤醒在本质上隶属分类问题,分类单元可以是唤醒词整体,也可以是音节(如汉语)/音素(如英语)。
另一方面,也是很自然地,算法工程师会想到使用语音增强技术对唤醒输入去噪,从而使分类边界上容易遗漏的样本点,远离危险的分类边界,向算法可以“囊括”的唤醒安全区迁移,从而减少强噪条件下的漏唤醒,但此法的有效性还未得到针对性、系统性的对比实验验证。
近日,德克萨斯大学达拉斯分校及苹果的研究人员发表一篇论文,对比研究了单通道条件下,语音增强与语音唤醒结合时的性能问题:
实验一:无语音增强前端,后端语音唤醒算法是基于带噪数据训得。
实验二:有语音增强前端,后端语音唤醒算法是基于纯净数据训得。
实验三:有语音增强前端,后端语音唤醒算法是基于带噪数据训得。
在实验二、三中,还可衍生出三种情况:首先是预训练好的后端语音唤醒模型的参数固定住,前端语音增强模型参数微调;其次是前端模型参数不动,后端唤醒模型,基于语音增强处理后的样本再微调一下;最后是两个都不固定,联合训练。这三种情况使用的损失函数是分类交叉熵损失加降噪SDR损失。
最终的唤醒率测试结果表明,实验二、三中无论如何“折腾”,分类准确率都不如实验一。
该实验使用的唤醒/关键词是谷歌语音命令词数据集的第二版本(Google Speech Command V2),背景噪声取自WHAM!数据集,唤醒模型为BC-ResNet,降噪模型为Conv-TasNet。
其实所用唤醒词、背景噪声、降噪及唤醒骨干网络都不影响结论的得出,此篇论文的不完美之处在于给出的指标是分类准确率(其中两类是无关词和静音分类),而不是工业界常用的唤醒率与误唤醒。引入语音增强作为前端,不仅是对唤醒样本降噪,同样也对背景噪声降噪,不仅改变了唤醒率,同样也改变了误唤醒。如果找数百乃至数前小时的公开数据集,作为误唤醒测试语料,给出引入降噪模型作为前端后,ROC或DET曲线的变化,结论会更加有说服力,无论这个结论是说降噪前端是有益或是有害的。
参考文献
[1] Avamarie Brueggeman, et al., “Does single-channel speech enhancement improve keyword spotting accuracy? A case study,” arXiv preprint arXiv:2309.16060, 2023.
作者:王佳杰
来源:21dB声学人
原文:https://mp.weixin.qq.com/s/YEr6PXEX2x9p0GmMmpf8Zw
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。