语音识别系列之CTC延迟削减

连接主义时间分类(Connectionist Temporal Classification, CTC)是自动语音识别(ASR)领域的一项经典技术,它的算法简单而优美,漂亮地解决了语音与标签对齐的难题。ASR可分为在线ASR和离线ASR,前者实时性要求高,常采用流式ASR模型,后者无实时性要求,为进一步提升识别准确率可采用非流式ASR模型。ASR模型若包括循环结构,为满足实时性,流式ASR仅能采用单向RNN/LSTM/GRU及各变种,非流式ASR可采用双向RNN/LSTM/GRU及各变种。

图片图1 非流式模型预测标签与真实位置对比(文献[2]图2)

图片图2 流式模型预测标签与真实位置对比(文献[2]图2)

流式ASR仅能看到当前及过去信息,看不到未来,仅当语音基元结束后,模型才有足够信息给出对应的分类概率得分,因此预测的语音基元标签的“概率峰”位置常滞后于真实位置(Ground truth)(如图1)。非流式ASR在判断当前帧时,不仅能看到当前及过去,还能看到未来,因此预测位置与真实位置相对吻合(如图2),甚至可先于真实位置,此时延时为负数。

CTC-Streaming ASR出现的语音基元标签延迟现象,致使实时性不佳,进而影响实际落地时的用户体验,各路研究者对此提出了自己的解决方案。早年的方法是在损失函数中添加惩罚项,将模型预测的语句或单词的结束点,与对应标记位置的延迟约束在一定范围内。早期方法虽然有效削减了延迟,同时也损伤了识别率,且需要额外的标记信息,使用不便且性能不佳。近年出现的方法则较好地解决了识别率与延迟之间的均衡难题,且不需要额外的标记信息,使用方便且性能超出早期方法。有如下三项工作可圈可点,论文均公布在2022年末左右。

贝叶斯风险CTC

腾讯AI LAB的Jinchuan Tian等人[1]提出贝叶斯风险CTC(Bayes Risk CTC, BRCTC),在CTC计算公式中对每条路径概率配以不同的风险权重,因此前向推理及后向梯度计算均需做相应更改。赋权的原因是原始版本CTC对所有可能路径的概率求和是平权的,致使哪条路径被选为预测对齐结果是不确定的。贝叶斯风险准则使得CTC预测更加可控,可根据自定义的特性将所有路径分组,优先级高的路径在训练中可配以更大的风险值。分组依据和风险值计算是自定义的,可根据具体应用场景(如在线或离线任务)灵活设计。

剪尾技巧

清华的Xingchen Song等人[2]提出剪尾(TrimTail)这一简单粗暴却有效的技巧,不需任何额外的对齐信息,可与任意训练损失(如Transducer损失及CTC损失)或任何模型架构在任意数据集使用,可成为解决ASR领域标签延迟问题的“通解”。

剪尾,具体而言,是指对原始音频的末尾进行一定长度的修剪,对应地,剪头(TrimHead)指对原始音频的头部进行修剪,拓尾(PadTail)指在原始音频的尾部补一段值为零的序列,而拓头(PadHead)是在头部补一段值为零的序列。

该文提出一个观点或一个解释,认为修剪这个操作可以压缩语音-文本的对齐空间,剪尾可迫使预测标签与先前的语音帧对齐,将对应的概率峰向前“挤”,如此可有效削减延迟。剪头虽然也可以压缩空间,但是由于开头信息被剪导致缺失,致使语音-文本失配严重。拓头、拓尾的实验结果(与剪尾相比,严格遵循了单一变量法则)表明延时增加,由于拓头、拓尾相当于拓增了对齐空间,延迟增加也反向证明了所提观点/解释的正确性。

实验结果表明,相比于原模型,经过剪尾训练的模型,能够在保持词错率基本不变或性能微掉的情况下,在中文普通话ASR数据集AISHEEL-1及英文ASR数据集Librispeech上取得约0.1至0.2s的延迟削减。

Peak-First正则化

美团的Zhengkun Tian等人[3]不改变原始CTC的前向推理及后向梯度计算,也不依赖其他预训练模型给出的强制对齐结果,仅在损失函数中添加Peak-First的正则化项,乘以因子与原始CTC损失相加,因子等于0时即与传统CTC别无二致。  

语音识别系列之CTC延迟削减

Peak-First的正则化项的计算,则依赖于帧级知识蒸馏函数,先对网络原始输出概率做平滑(温度系数默认设为10),下一帧概率除以当前帧概率,求对数后再乘以下一帧概率,对某条训练音频分帧后的所有时间帧累加:  

语音识别系列之CTC延迟削减

其中V是CTC的分类类别数,等于语音基元数+1,1是blank标签。在损失函数中添加此正则化项,可使CTC模型在兼顾CTC损失的前提下,额外追求预测出的概率分布左移(也即时间前移),均衡偏好受正则化因子的调控。实验结果表明,在大部分因子设置下,识别率不仅没有下降,反而还略有提升,与此同时,流式ASR模型的标签延迟被削减了0.1~0.2s。

参考文献:

[1] Tian, Jinchuan, et al. “Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks.” arXiv preprint arXiv:2210.07499 (2022).

[2] Song, Xingchen, et al. “Trim Tail: Low-Latency Streaming ASR with Simple but Effective Spectrogram-Level Length Penalty.” arXiv preprint arXiv:2211.00522 (2022).

[3] Tian, Zhengkun, et al. “Peak-First CTC: Reducing the Peak Latency of CTC Models by Applying Peak-First Regularization.” arXiv preprint arXiv:2211.03284 (2022).


作者:王佳杰

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(1)

相关推荐

发表回复

登录后才能评论