深度学习在声源定位中的应用

什么是声源定位（Sound Source Localization，SSL）技术？声源定位（SSL）是基于记录的多通道传声器信号来估计一个或多个声源相对于某个任意参考点的位置的问题，该参考点通常是麦克风阵列的位置。通常情况下，SSL被简化为对源的到达方向（DoA）的估计，即它专注于方位角和仰角的估计，而不估计到麦克风阵列的距离。SSL具有许多实际应用，例如，例如声源分离、自动语音识别（ASR）、语音增强和房间声学分析等。

传统的SSL方法基于信号/信道模型和信号处理（SP）技术。尽管多年来它们在该领域取得了显著进展，但众所周知，它们在可能存在噪声、混响和几个同时发出声源的困难但常见的场景中表现不佳。在过去的十年里，数据驱动的深度学习（DL）技术在解决此类困难场景方面的潜力越来越受到人们的关注。因此，近年来，越来越多的基于深度神经网络（DNN）的SSL系统被提出。大多数报道的工作表明，基于DNN的SSL方法优于传统的（即基于SP的）SSL方法。

例如，Chakrabarty和Habets（2017a）表明，在低信噪比条件下，与使用称为带相位变换的转向响应功率（SRP-PHAT）的传统方法相比，使用CNN导致总体DoA分类精度提高了两倍。在Perotin等人（2018b）中，与基于独立分量分析（ICA）的方法相比，使用卷积递归神经网络（CRNN）时，作者能够获得DoA分类精度提高25%的结果。最后，Adavanne等人（2018）证明，与传统的MUSIC算法相比，在混响条件下，使用CRNN可以将平均角误差降低50%。

基于DL的SSL方法的一般原理可以用一个简单的流程图来表示，如图1所示。由麦克风阵列记录的信号由特征提取模块提供输入特征，这些输入特征被馈送到DNN中，DNN提供对源位置或DoA的估计。

基于深度学习的实现方法（不同网络架构）

A.卷积-递归网络（CRNN）

CRNN网络结合了卷积神经网络（CNN）和循环神经网络（RNN）的优势，能够对时域和频域信息进行有效地建模和处理。在2019，2020年的DCASE挑战赛Task 3中，CRNN被设置为基线系统。

在声源定位任务中，CRNN网络可以用于从音频信号中提取有关声源位置的特征。通过卷积层，CRNN网络可以捕捉音频信号的局部特征和频谱信息。卷积操作对音频信号进行滤波和降维，提取出具有空间和频域上的局部结构的特征。这些特征可以用于判断声源在时间和频率上的分布情况。

接着，通过循环层，CRNN网络可以建模音频信号的时序依赖关系。RNN的循环结构允许网络在处理音频序列时保留先前的状态信息，从而捕捉到声源在时间上的变化和动态特性。这对于声源定位任务中的时变声源定位或多个声源同时存在的情况非常重要。

Adavanne等研究人员于2018年首次提出用于声源定位的CCRN网络模型，其输入是多通道STFT域FOA幅度和相位频谱图。他们的架构包含一系列连续的卷积层，每个层后面都有一个最大池化层和两个双向门控递归单元（BGRU）层。然后，前馈层提供了由MUSIC算法预处理的空间伪频谱（SPS）的估计，作为中间输出。然后将该SPS馈送到神经网络的第二部分，该神经网络由两个卷积层、一个密集层、两个BGRU层和用于分类估计方位角和俯仰角的最终前馈层组成。最后，采用具有S形激活函数的最终432单位时间分布全连接层来推断DoA。

B.基于注意力机制的神经网络

注意力机制是一种允许神经网络将重点放在与给定任务更相关的时间序列的向量上的方法，它可以帮助网络在处理音频信号时更加关注与声源定位相关的重要特征，从而提高声源定位的准确性和鲁棒性。

在声源定位任务中，注意力机制可以用来动态地调整网络对不同时间和频率上的特征的关注程度。通过对输入特征进行加权，注意力机制使网络能够自适应地聚焦于对声源定位更有用的信息，而抑制对无关信息的响应。这样，网络可以更加精确地定位声源，并对复杂的声音环境具有更好的适应能力。

一个典型的注意力机制网络结构如图所示，它由德国波鸿鲁尔大学Schymura等研究人员于2021年提出。输入为多通道语谱图，首先用卷积层进行特征提取，以产生附加了位置编码矢量的表征。然后，Transformer编码器计算形状KDE的新表示，该新表示用于计算源活动系数和多源高斯分布表征的平均值。

与其他网络结构相比，注意力机制具有以下优点：

重点关注：注意力机制使网络能够有选择地关注与声源定位相关的特征，忽略对定位无用的信息。这样可以提高网络的注意力聚焦度，提升声源定位的准确性和鲁棒性。

自适应性：注意力机制可以根据输入数据的不同部分自适应地分配注意力权重。这使得网络能够灵活地在不同的时间和频率上调整注意力，以适应声音信号的动态变化和时频特征的差异。

解释性：注意力权重的分配可以提供对网络决策的解释性。通过分析注意力权重，可以了解网络在声源定位中关注的重要特征和区域，为后续的研究和优化提供指导。

总之，注意力机制在声源定位研究中可以提供更精细的特征选择和自适应的特征权重分配，从而提高声源定位的性能。

C.U-net架构

U-Net是一种深度学习架构，最初用于图像分割任务，但也在声源定位研究中得到了广泛应用。在U-net中，输入特征在整个编码器层被分解为连续的特征图，然后在整个解码器层被重新组合为“对称”特征图，类似于CNN。在编码器和解码器中具有相同级别的特征图的相同维度使得能够经由残差连接将信息从编码器级别直接传播到解码器的相应级别。典型的U-Net示意图如图

上图是Chazan等人的U-Net网络架构，输入矩阵R包含从RTF中提取的角度特征，估计每个考虑的DOA一个TF掩码.其中每个TF仓与单个特定的DoA相关联, 这种TF掩码最终被应用于源分离。该架构使用了编码器（蓝色）和解码器（绿色）的几个阶段。在每个编码器（或解码器）级，使用具有3个3核的两个或三个卷积层来计算新的表征，该新的表征分别用作下一个编码器（或译码器）的输入，除了bottleneck层。从该bottleneck层将输出作为输入馈送到上级译码器。剩余连接用于将一个编码器输出连接到同一级解码器的输入，以缓解丢失信息的问题。

输入特征的类型

总体而言，SSL神经网络的输入特征是基于某些信号处理中已经应用的表示，通常强调信号中嵌入的空间和/或时频信息，这似乎已经取得了良好的效果，尽管其他领域的趋势是直接从原始数据中学习特征表示。一种解释可能是与其他领域（例如NLP）使用的端到端模型相比，SSL中的网络架构通常相对较简单。

A.通道间的特征

RTF是一个非常普遍的通道间特征，已被广泛用于传统（非深度）SSL和其他空间音频处理，如声源分离和波束成形和声学回声消除，现在也被用于基于DL的SSL。对于一个给定的声源位置和一对麦克风，RTF被定义为两个传声器的源-传声器ATF（即相应RIR的离散傅里叶变换）的比值H(f)=A₁(f)/A₂(f)。在有两个以上的传声器的多通道系统中，通常将一个传声器用作参考传声器，进而为其他传声器定义一个RTF。如果记录的信号中只有一个定向源，并且扩散的背景噪声可以忽略不计时，利用两个通道记录的波形的STFT变换之间的比值，可以获得相应STFT帧和麦克风对（以i和k为索引）的RTF：

基于RTF的表征已经被用于几个基于DNN的系统中，例如，Chazan等人（2019年）、Hammer等人（2021年）和Bianco等人（2021年）将从所有麦克风对获得的测量RTF的参数作为输入特征。

双耳特征对应于特定的双通道录音装置，旨在以最真实的方式重现人类的听觉感知。为了达到这个目的，采用带有入耳式传声器的假人头/身体来模拟声源到人耳的传播过程，特别是头部和外耳（耳廓）的影响。在消声环境中，（双通道）源-传声器的脉冲响应被称为双耳脉冲响应（BIR）。BIR的频域表示是HRTF。BIR和HRTF都是源DoA的函数。考虑到现实场景SSL应用中的房间声学，将BIRs扩展为双耳房间脉冲响应（BRIRs），它结合了头部/身体效应和房间效应（特别是混响）。

人耳对于单声源的定位主要依赖于两个重要参数，双耳时间差(ITD)及双耳强度差(ILD)。其中ILD和双耳相位差（IPD）与RTF密切相关，对应的公式如下：

当有多个声源存在时,TF域中语音/音频信号的稀疏性允许ILD/IPD/ITD值提供关于几个同时活动的声源的位置信息。Nguyen等人（2018）使用IPD作为参数，将其与多个频率bin和时间帧的ILD串联在一起，生成一个二维张量，然后将其输入到CNN中进一步分析。Pak和Shin（2019）提出了一个只依赖IPD的系统，实现了比传统DOA估计更好的性能。对于基于DNN的系统，Roden等人（2015）和Zermini等人（2016）使用了ILD和ITD，Shimada等人（2020-2021）采用了IPD及其他类型的特征。

B.基于互相关系数（CC）的特征

根据加权函数的不同，广义互相关函数有多种不同的变形，其中广义互相关-相位变换方法（GCC-PHAT）方法应用最为广泛。GCC-PHAT方法本身具有一定的抗噪声和抗混响能力，但是在信噪比降低和混响增强时，该算法性能急剧下降。还有一些SSl依赖于交叉功率谱（CPS），Leung和Ren（2019）以及Xue等人（2020）将CPS输入CRNN架构中，以提高定位性能；Grondin等人（2019）还在其体系结构的卷积块中使用了每个麦克风对的交叉谱，并且在更深的一层中串联了GCC-PHAT特征。

传统的基于多通道信号CC矩阵特征分解的SSL方法，如MUSIC（Schmidt，1986）或ESPRIT（Roy和Kailath，1989），已经被广泛研究。基于DNN的SSL系统（如Takeda和Komatani在2016-2018的研究）受到这些方法的启发，重新使用这种特征作为其神经网络的输入。Nguyen等人（2020a）基于MUSIC算法计算了空间伪谱，然后将其用作CNN的输入特征。

C.基于频谱图的特征

另一种方法是直接向SSL系统提供“原始”的多通道信息，即在通道维度上没有任何预处理。基于DNN的SSL方法的一般精神是，网络应该能够自己 “看”，并自动提取和利用TF 谱图沿通道维度的差异，同时利用TF信号表示的稀疏性。

在几项研究中，不同STFT帧的个别频谱向量被独立地提供给神经模型，这意味着网络没有考虑它们的时间相关性。此时，网络输入是一个大小为M*K的矩阵，其中M是麦克风的数量，K是STFT频率bin的数量。Hirvonen（2015）将每个单独分析帧的八个通道的对数频谱连接在一起，并将其发送到CNN中。Chakrabarty和Habets（2019）和Mack等人（2020）使用多通道相位谱作为输入特征，忽略了幅度信息，这是因为它可以轻松地从白噪声信号生成训练数据集，作为这项工作的扩展，Bohlender等人（2021）也利用了相位谱。

当考虑到几个连续的帧时，多个时间步长和多个频段的STFT系数为每个通道形成一个二维矩阵，这些频谱图在第三维度上堆叠在一起，形成三维输入张量。如Patel等人（2020）只考虑了幅度谱。

STFT频谱图将频率间隔等分，而梅尔频谱图和bark频谱图则采用非线性子带划分表示。在几个SSL神经网络中，梅尔谱图比STFT谱图效果更好，例如，Cao等人在2019年多声部声音事件定位和检测领域的工作。在Pratik等人（2019年）的SSL系统中，也对Bark尺度进行了探索。

D.Ambisonic格式

Ambisonics是一种多声道格式，由于其能够代表声场的空间属性，同时与传声器阵列配置无关，因此被越来越多地使用。SH分解是针对与传声器阵列同心的球体表面上测量的声压进行的。对于远场固定声源，在STFT域中的分解系数如下所示:

其中，X和Y分别代表Ω方向上的声压和SH函数。在实践中，由于组成阵列的传声器数量有限，这个积分由正交规则来近似，即假设声压在球面上是一个有限阶的函数（Rafaely，2019），其中L是最大阶数，并取决于阵列中传声器的数量。一阶Ambisonics（FOA）频谱图被Adavanne等人（2018、2019b）、Guirguis等人（2020）使用。Poschadel等人（2021）比较了基于从1到4阶的HOA频谱图的CRNN的性能，结果显示，阶数越高，网络的定位精度越好。

E.波形

自2018年以来，Suvorov等几位作者提出了直接向神经网络模型提供多通道信号原始波形的想法。这种想法依赖于DNN的能力，可以在不需要手工特征或任何预处理的情况下得到最佳的SSL，这与DL朝着端到端方法的总体趋势是一致的。

基于波形特征的潜在劣势在于，利用这种数据的架构通常更加复杂，因为网络的一部分需要专门用于特征提取。此外，一些研究称，当输入信号中存在噪声时，从原始数据中学习“最佳”特征变得更加困难（Wichern等人，2019），甚至可能在某些情况下损害泛化能力（Sato等人，2021）。

输出策略

一般将这些策略分为两类：分类和回归，当SSL网络被设计为分类任务时，声源位置搜索空间通常被划分为几个区域，对应不同的类别，神经网络为每个类别输出一个概率值。至于回归，其目的是直接估计声源的位置和方向。

A.通过分类进行DoA估计

空间被分成几个大小相似的子区域，神经网络的产出为每个子区域活动源存在的概率。这种分类问题通常通过在网络中使用前馈层作为最后一层来解决，该层的神经元数量与考虑的子区域数量相同。一般来说，有两个激活函数与最后一层神经元关联：softmax和sigmoid函数。Softmax确保所有神经元输出的总和为1，因此适用于单源定位场景。对于sigmoid函数，所有神经元输出都在0.5到1之间，彼此独立，适用于多源定位。最后一层输出通常被称为空间伪谱，其峰值为对应区域声源活动的高概率。

最终的DoA估计通常是使用拾取峰值算法得到的：如果源数量J已知，则选择J个最高峰值可以得到多源DoA估计；如果声源数量未知，则通常选择高于某个自定义的阈值的峰值，从而得到声源数量和位置的联合估计。一些预处理，如空间谱平滑或角度距离约束，可获得更好的DoA估计效果。因此，这种分类策略可以轻松地用于单源或多源定位。

B.通过回归进行DoA估计

在回归SSL网络中，源位置的估算是一个或多个输出神经元提供的连续值直接给出的。由于没有量化，这种方法估计的DoA更准确。但它的缺点也很明显，首先，声源数量需要已知或自行假设，因为没有办法根据定位回归来估计声源是否处于活跃状态；其次，基于回归的SSL通常面临着众所周知的信号源排列问题，该问题发生在多信号源定位时，也是基于DL的信号源分离方法的常见问题。在计算损失函数时，存在目标和实际输出之间的关联模糊性，也就是说，无法判断哪个估计应该与哪个目标相关联，一个可能的解决方案是强制SSL网络训练为包络不变量（Subramanian等人，2021b）。

C.间接DoA估计

在回归模式中也可以使用神经网络来估计中间量，然后由非神经网络算法来预测最终的DOA。Pertila €和Cakir（2017）提出使用CNN在回归模式下估计TF掩码，然后将该掩码应用于嘈杂的多声道频谱图，以获得干净的多声道频谱图的估计，接下来使用经典的SRP-PHAT方法检索最终的DoA。Wang等人（2019）使用双向LSTM网络进行了另一种TF掩码估计，以改进传统的DoA估计方法。Pak和Shin（2019）训练了一个MLP来消除IPD输入特征的伪影。Huang等人（2018-2019）使用神经网络对多通道波形进行处理，将其按照特定候选源位置的延迟时间进行移位，以估计原始信号，然后计算所有候选声源位置的估计干信号之间的CC系数之和，总和峰值对应的位置就是估计的结果。Jenrungrot等人（2020年）提出了一种联合定位和分离方案，神经网络被训练成在一定的角度窗口估计来自某一方向的信号，其参数被作为输入注入到每一层，使网络像雷达一样扫描所有方向，然后逐步减小角度窗口，直到达到所需的角度分辨率。

数据集

对于任何深度神经网络来说，数据集的数量和质量都起着重要作用。对于室内的家庭或办公室环境，噪声和混响在现实世界的信号中很常见。

A.合成数据

为了模拟真实的数据，考虑到混响，需要模拟房间声学特性，这通常通过合成虚拟源-麦克风对的声音传播模型的RIR来完成。然后，将干信号与此RIR卷积，以获得模拟的传声器信号。SSL实现的基础是声源相对于传声器阵列的位置信息被隐含地编码在（多通道）RIR中，而SSL DNN学习从样本中提取和利用这些信息。因此，必须使用多种不同的干信号和大量不同应用场景下的RIR来合成数据。此外，可能还需要考虑其他因素的影响，例如房间尺寸和混响时间。这种方法的一个优点是存在许多干信号数据集，至于RIR模拟，存在几种方法和声学模拟软件，感兴趣的读者可以查阅相关参考资料（例如Rindel, 2000; Siltanen 等人, 2010; Svensson 和Kristiansen, 2002）。

类似地，训练和测试双耳SSL系统需要直接将干信号与BIRs卷积。考虑真实场景中的房间声学特性，通常将BIR与RIR相结合。这不是通过简单地级联BIR和RIR滤波器来实现的，因为BIR取决于源的方向，这意味着需要将其与来自许多方向的RIR组件进行整合（Bernsch€utz，2016），称为双耳室内脉冲响应（BRIR）。

B.真实数据

Cristoforetti等人（2014）提出的用于鲁棒家庭应用场景的远距离语音交互（DIRHA）模拟语料库已被用于模拟基于真实RIRs的麦克风语音信号。

TIMIT语料库是由麻省理工学院、德州仪器公司和SRI国际公司合作开发的。TIMIT语料库以语音数据为基础，用于训练和评估语音识别系统。TIMIT记录了使用8种不同方言的美式英语的630名不同说话人的语音，每段录音包含10个不同的句子。该数据集由70%的男声和30% 的女声组成。

SOFA数据集由音频工程协会（AES）监管，提供相应的平台来存储空间导向的声学数据。

近年来的挑战赛也构建了数据集用于对系统进行评估。例如在2019年（ Adavanne等人）、2020年（Politis等人）和2021年（Politis等人）为DCASE挑战的SELD任务创建的数据集。

声源定位和跟踪（LOCATA）挑战一直是针对语音源定位的最全面的挑战之一。该记录使用了以下几种类型的传声器阵列：Brutti等人（2010）的平面阵列、Em32 Eigenmike球形阵列、助听器和安装在机器人头上的一组传声器。这个数据集已被用于许多研究工作中，以验证在真实场景中所使用的方法的有效性。

总体来说，深度学习技术在声源定位中具有非常重要的应用前景。它可以避免传统声源定位方法中需要进行复杂的信号处理和时间同步的问题，同时也可以提高声源定位的准确性和稳定性。随着深度学习技术的不断发展，我们相信深度学习在声源定位中的应用前景会越来越广阔。

参考文献：

1、Grumiaux PA, Kitić S, Girin L, Guérin A. A survey of sound source localization with deep learning methods. The Journal of the Acoustical Society of America. 2022 Jul;152(1):107.

2、M. Ahmad, M. Muaz and M. Adeel, “A Survey of Deep Neural Network in Acoustic Direction Finding,” 2021 International Conference on Digital Futures and Transformative Technologies (ICoDT2), Islamabad, Pakistan, 2021, pp. 1-6.

作者：宋芳葶、黄君如
来源： 21dB声学人
原文：https://mp.weixin.qq.com/s/mPUopk84n4bHRuTIKCDqZQ