深度学习语音分离算法

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。

它的主要目标是从带噪语音中提取尽可能纯净的原始语音，提高语音质量和可懂度。

深度学习是实现语音增强最主要的方法之一，帮助我们从带噪语音中提取尽可能纯净的原始语音，提高语音质量和可懂度。

该技术在语音连麦、实时语音通信等场合有应用前景。

整体架构

整体架构简述：

•整体架构为端到端训练框架，分为三大部分：特征提取（编码），分离网络，解码•特征提取：含噪声信号直接从原始时域信号提取特征，采用卷积进行线性编码•分离网络：采用全卷积的网络架构，生成语音和噪声对应的嵌入向量•解码：与编码类似，采用线性解码将编码信号映射回时域信号

详细方案设计

详细方案如下图所示，可分为：数据集制作，特征提取（编码模块），分离网络，解码模块，损失函数的训练策略.

数据集制作

清晰语音数据：约20000条4s音频，10000条中文数据，10000条英文数据•噪声数据：约3000条4s不同种类噪声音频•采用 -10~10dB 信噪比将两路声进行混合•数据增广：翻倍•数据集总时长：约44h•生成数据维度：(32000,1)•生成数据格式：将训练数据转化为tfrecord格式，加快训练。

频域特征及其局限性

传统深度学习网络的输入特征，一般为频域特征（STFT，MFCC，……），采用频域特征局限性如下：

•STFT的准确性随着所加窗大小而变化的。小的时间窗，可以得到更加精确的时间信息，但频率信息分辨率降低。•大的窗，频率分辨率大，而无法获取精确的时间上的变化信息。•一般采用的窗长512，256（窗长太短，会影响频域分辨率），算法延时大小。•部分网络架构采用对频域的幅度进行分离，用含噪信号的相位，进行时域信号合成。错误相位信息影响语音分离性能。

原始时域信号特征提取及其优点

Encoder是一个线性的转换器（1维卷积，滤波器长度16，stride为8，通道数为512）。它就是一个权重矩阵。输入是一段非常短的声音信号，只有16个采样，即16维的向量。通过 Encoder 之后，会产生一个 512 维度的向量（3999，512）•相当于窗长16个点，远小于频域特征提取选用的窗长，对于8K采样，可以做到小于4ms的理论延时•采用时域信号作为输入特征，不涉及到相位问题，不存在错误信息•上图为训练后，Encoder滤波器系数的时域和频域分布情况：Encoder 矩阵每个维度的权重向量实际上是一个个滤波器。它们会编码不同频率的信号。低频的权重相对较多，因为人声在低频部分比较多。模型能自动学到要怎样来编码人声特征

分离网络

Encoder 输出向量，会喂给分离网络，让它产生两个 MASK，分别对应语音和噪声的概率。

1.分离网络采用类似WaveNet的架构。如上图所示，由很多层的 1-D CNN构成。以图中三层 1-D CNN举例：第一层 CNN 会把相邻三个输入，用 filter 变成一个输出。第二层 CNN 会把跳格相邻的三个输入变成一个输出。第三层 CNN 则是把跳4格相邻的输入，用 filter 变成一个向量….这样第三层得到的向量视野范围就有 12 个sample的向量的信息。

2. 分离网络中的卷积选择可以分为两种：常规卷积，因果卷积。常规卷积需要依赖未来帧信息。降噪效果好。因果卷积仅需要利用历史和当前帧信息，降噪效果不如常规卷积，低延时，适合实时通话场景

3. 往后再循环三遍这样的过程，再生成 MASK。为什么需要反复用这么多的 CNN 呢？因为如果 CNN 能反复更多次，就可以看到更长的信息。比较 12 个 sample 对一段波形语音来说，实在太少了。但如果我们像这样重复很多次，仅仅3遍流程，模型就可以看到 1.53s 的波形语音了。在每一层的卷积中，TasNet 采用了一个叫作 Depthwise Separable Convolution (DSC) 的技巧，卷积对各通道数据是解耦的，在通过1×1卷积将各通道的耦合找回来。它是一种可以让 CNN 参数减少的方法。

4. 第3步的输出，再通过1×1卷积，relu 得到两个 MASK。接下来我们再把这两个 MASK 分别和 Encoder 的输出相乘得到两个（3999，512）的向量，喂给解码器。