紧凑但强大:Intel N-DNS Challenge 冠军方案解析

紧凑但强大:Intel N-DNS Challenge 冠军方案解析

微软举办的DNS Challenge比赛做语音的朋友们或多或少有所了解,但是这个比赛更多的注重语音增强的效果。然而在实际场景下,很多语音增强的算法要放在低算力的端侧运行,这就对模型的参数量提出了要求。受到DNS Challenge比赛的启发,Intel 提出了N-DNS Challenge 比赛,旨在帮助神经网络和机器学习研究人员创建高质量、低功耗的实时音频去噪系统。其中N表示神经拟态(neuromorphic),是指模拟生物神经系统(特别是人类大脑)的结构和功能的技术和设计理念。该概念广泛应用于计算机科学、人工智能和电子工程领域,旨在开发能够以类似于生物神经元和突触的方式处理信息的系统。仿照人类大脑神经元和突触结构及功能的计算芯片,成为神经拟态芯片(neuromorphic chip),Intel推出的Loihi 2就是一款神经拟态芯片,其架构如下所示。

紧凑但强大:Intel N-DNS Challenge 冠军方案解析

Intel N-DNS Challenge的整理架构包括encoder、denoiser和decoder三部分。带噪语音输入到encoder,encoder将音频波形转换为适合神经形态去噪器处理的形式。denoiser接收该输入并从信号中去除噪声。最后,decoder将denosier的输出转换为干净的输出音频波形。Intel N-DNS 挑战包括两个赛道:

赛道1(算法):旨在鼓励算法创新,在实现高去噪性能的同时,在作为神经拟态系统实现时保持高效。编码器、解码器和神经形态去噪器都在CPU上运行。

赛道2(Loihi 2):旨在将赛道1中的算法在实际的神经拟态硬件上实现,并展示一个实时去噪系统。编码器和解码器在CPU上运行,denoiser在Loihi 2上运行。

由于赛道2更像是一个工程性的问题,因此本文主要关注赛道1,低开销的高性能降噪网络。首先看下官方release的baseline系统,如下图所示。该结构是一个SDNN结构(sigma-delta ReLU neural network),利用了两种神经形态计算理念:使用sigma-delta神经元进行稀疏消息传递,以及使用轴突延迟进行时间计算。

紧凑但强大:Intel N-DNS Challenge 冠军方案解析

第一届Intel N-DNS Challenge的冠军方案是基于Fullsubnet,结合门控脉冲神经元、频率划分和多帧深度滤波等技术,这些改进不仅系统的语音增强能力,还显著提升了其计算效率,整体架构如下所示。

紧凑但强大:Intel N-DNS Challenge 冠军方案解析

Gated Spiking Neuron

由于在Leaky Integrate-and-Fire(LIF)结构中,每个神经元使用的固定衰减因子 λ ∈ R,这限制了它们保留对语音增强至关重要的多尺度时间信息的能力。最近提出的Parametric LIF(PLIF)使用可学习的参数代替固定的参数λ,然而它仍然不能满足语音增强的需求,因为衰减因子在不同时间步长上保持不变。为了克服这一限制,我们引入了一个门控函数来调节每个时间步长的衰减率。这使得每个神经元能够动态调整其膜电位,增强其处理时间任务的能力,Gated Spiking Neuron(GSN)表达如下所示:

紧凑但强大:Intel N-DNS Challenge 冠军方案解析

FullSubNet with Frequency Partitioning

FullSubNet 是一个流行的语音增强模型,它结合了全带模型和子带模型。在FullSubNet 中,全带模型提取全局频谱信息和广泛的跨带依赖性,而子带模型独立处理频带,强调局部频谱模式、混响特性和信号的稳定性。FullSubNet 的缺陷在于计算密集的子带组件,它以相同的频率粒度处理每个频带。这种方法与人类听觉系统相反,因为人类听觉系统对低频声音更敏感。因此我们引入频率划分,通过对时间相关性更好的低频带进行更深度的过滤,而对高频带进行较少的处理,这一操作更符合人的听觉系统。在FullSubNet内部处理过程中,子带模型并行运行,每个模型利用其相邻频带的上下文信息,如下图所示。

Multiframe Deep Filtering

在Mask估计中,传统的语音增强模型通常独立计算每个时频的Mask,从而忽略了时间和频率域中相邻点之间的内在关联。深度滤波通过在确定特定时频点的听觉掩蔽时整合相邻点的上下文来解决这一问题,下图所示是阶数为3的深度滤波示意图:

紧凑但强大:Intel N-DNS Challenge 冠军方案解析

Loss Function Optimized with Black-Box Metrics

整体的损失函数包含几个部分,首先是基于SI-SDR的损失函数,然后计算了复数的频谱和幅度频谱用于频率级别的优化,最后引入了 MetricGAN+ 的判别损失来预测深度噪声抑制平均意见得分(DNSMOS),完整的loss计算公式如下:

紧凑但强大:Intel N-DNS Challenge 冠军方案解析

最终整体的效果如下表所示,可以看到在参数量较小的情况下也可以达到比较好的效果。

紧凑但强大:Intel N-DNS Challenge 冠军方案解析

参考文献:

[1].  https://iopscience.iop.org/article/10.1088/2634-4386/ace737/pdf

[2]. https://github.com/haoxiangsnr/spiking-fullsubnet

[3]. https://github.com/IntelLabs/IntelNeuromorphicDNSChallenge

[4]. https://www.intel.com/content/www/us/en/research/neuromorphic-computing-loihi-2-technology-brief.html

作者:Ryuk
来源:语音算法组

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论