近日,国际声学、语音与信号处理顶会(IEEE International Conference on Acoustics, Speech and Signal Processing,ICASSP)联合微软发起的 2024 语音信号质量增强挑战赛(Speech Signal Improvement Challenge, SSI-Challenge)和 2024 音频丢包隐藏挑战赛(Audio Deep Packet Loss Concealment Challenge,PLC-Challenge)结果均已公布。
快手音视频技术团队荣获SSI-Challenge两个赛道的冠军,在基于P.804标准的降噪、混响、频谱染色、响度、音质修复等多个子项的主观评价均显著领先其他参赛队伍。本次PLC Challenge比赛的评估指标主要涉及P.804 Discontinuity,P.804 Overall和语音识别字准率等方面,快手力压国内外众多强队,蝉联世界冠军。
同时,在ICASSP 2024会议中,快手在音频超分(Audio Super-Resolution)领域论文《BAE-Net: A Low complexity and high fidelity Bandwidth-Adaptive neural network for speech super-resolution》被接收,该方案已成功应用在快手主站直播上。
论文链接:
https://arxiv.org/abs/2312.13722
SSI-Challenge
01 背景
在实时通讯场景中,例如语音通话和直播互动,语音信号常常受到各种复杂的声学条件的影响,包括噪声、混响、设备采集失真、丢包、编码失真和前处理损伤等。为了应对这些业界难题,语音信号质量增强挑战赛旨在对整个实时通讯链路中的劣化语音信号进行质量增强,以高度还原实时音频通讯中的真实挑战。该比赛分为实时和非实时处理两个赛道,并以ITU-T P.804和P.835标准衡量语音信号的质量。
在本次SSI-Challenge挑战赛中,盲测集数据包含了500条劣化音频数据,涵盖了多个说话人和多种语言的语音音频。这些音频数据经过真实通讯链路中各种失真类型的仿真,劣化音频的语音质量和可懂度非常低。挑战赛吸引了来自全球学术界和工业界的众多高校和团队参与,其中包括字节跳动&西北工业大学、小米、中科院声学所、南京大学、东南大学、武汉大学和斯图加特大学等。
02 方法概述
针对SSI-Challenge任务,快手音频处理团队从数据增广的角度出发,分析了验证集和去年盲测试集中的失真类型和比例,并设计了一套模拟实时音频通讯中语音损伤的数据仿真链路。该链路包含了噪声、混响、频谱染色、爆音截波、远场小音量、丢包、直流偏置、编码失真、3A前处理损伤等数十种失真损伤,并构建了适用于语音信号质量增强任务的数据集。
针对上述失真,团队结合了生成式模型和语音增强模型,最终提出了一个两阶段生成式修复方案。首先,使用多子带生成对抗网络(Generative Adversarial Network, GAN)进行语音损失修复,包含了去噪去混响、AI-EQ、响度均衡、音频超分(BWE)、丢包隐藏等功能,从高度损伤的音频中恢复目标干净语音。随后,团队发现使用单一生成网络GAN,存在瞬态噪声难以消除、伪影问题(Artificats)以及频谱细节损伤,提出了多子带融合语音增强网络(Sub-Band Fine-Grained SE)进行噪声抑制和频谱细节修复。团队以仿真数据集上训练的两阶段生成式修复系统作为参赛系统,并使用了不同复杂度的模型结构分别参加比赛的两个赛道。
03 实验评估(音频处理效果)
在实时赛道和非实时赛道中,均使用P.804 / P.863.2标准进行主观评价(subjective evaluation)。该技术方案在降噪(MOS_NOISE)、混响(MOS_REVERB)、频谱染色(MOS_COL)、响度(MOS_LOUD)、音质修复(MOS_SIG)等多个子项任务均显著领先,最终在两项赛道上均获得冠军。
实时赛道结果:
04 总结
快手音频团队设计的语音信号增强系统能够有效提升实时音频通讯中受多种失真劣化影响的语音信号质量。由该方案衍生的音质修复算法已经在快手主站直播场景上线,可以在较低复杂度下提升人声音质,实现低质量语音到高质量语音的美化,为实时通讯提供了更加出色的用户体验。
PLC-Challenge
01 背景
音频丢包对于实时通讯的声音主观听感和可懂度影响巨大,是影响音质的关键因素之一,而丢包隐藏(PLC)技术是解决丢包问题带来的音质下降的关键技术。此前,快手曾参加INTERSPEECH 2022 Audio Packet Loss Concealment Challenge并取得世界冠军成绩。本次PLC-Challenge,主办方将音频信号采样率提升为48kHz,并且在评价指标中更加侧重于burst丢包时的语音连续性,同时需要保证算法延迟在20ms以内,提升了PLC任务的难度。
在本次比赛中,主办方盲测集包含800条实际场景中采集的丢包的48kHz采样率音频信号,部分音频丢包率高达50%以上,且不乏连续丢包时长超过100ms的信号。
02 方法概述
本次比赛,快手音频团队对上一届PLC-Challenge方案进行了重要改进,提出了时频域结合的全带音频信号丢包隐藏系统,并引入了多阶段训练方案,充分发挥时域网络的连续性补偿优势和频域网络的高频生成与扰动补偿优势。该系统使用上千小时数据进行训练,在信号损失函数和生成对抗网络损失函数的联合指导下,最终实现了高质量丢包隐藏的效果。最终,快手在P.804 Discontinuity,P.804 Overall和语音识别字准率等指标的综合评估结果中力压众多强队,蝉联PLC-Challenge世界冠军。
后续,以该PLC系统为代表的快手语音编解码技术将继续提升和优化,并将逐步落地在快手的实时通讯场景中,为弱网环境下的音频交互体验保驾护航。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。