在刚刚过去的ICASSP 2023声学回声消除(AEC)挑战赛中,火山引擎 RTC 团队联合西北工业大学音频语音与语言处理研究实验室,在通用回声消除(Non-personalized AEC)与特定说话人回声消除(Personalized AEC)两个赛道荣获冠军,并在双讲回声抑制、双讲近端语音保护、近端单讲背景噪声抑制、综合主观音频质量打分及最终语音识别准确率等多项指标上显著优于其他参赛队伍,达到国际领先水平。
其中“N”代表通用AEC,“Y”代表特定说话人AEC,绿色越深代表指标表现越好ICASSP AEC挑战赛由国际音频顶级会议ICASSP和微软联合发起,旨在激发声学回声消除领域的研究热情,自第一届举办以来就吸引了亚马逊、腾讯、阿里巴巴、百度、快手、中科院、西工大等全球诸多知名企业和科研院所的参与。
今年的ICASSP AEC也不例外,参赛队伍之多之强,使AEC成为ICASSP 2023各项赛事中竞争最为激烈的赛道之一。ICASSP AEC挑战赛要求各参赛队伍对10,000多个来自于真实音频设备和真实环境下的录音数据进行AEC模型训练,并根据单讲/双讲等场景中获得的主观平均意见分以及语音识别率综合评判名次。
火山引擎RTC通过对时延补偿模块、线性AEC模块、残留回声抑制处理模块进行优化,有效降低AEC模型的复杂度,提升了回声的抑制效果。同时,通过对训练数据进行增广,使AEC处理框架可以覆盖更多场景的回声处理问题。最终,团队在远端单讲回声抑制、近端单讲信号保护、近端单讲背景噪声抑制、双讲回声抑制、双讲近端语音保护等各子场景中均发挥出色,取得总分第一的成绩。
AEC处理框架除此之外,今年ICASSP AEC挑战赛首次增加了特定说话人回声消除(Personalized AEC)赛道。相比于通用回声消除技术(Non-personalized AEC)在线上使用,特定说话人回声消除技术则更多出现在学术研究领域。随着回声消除应用的场景越来越广泛、越来越复杂,特定说话人回声消除也越来越受到人们的关注。延续在通用AEC领域的技术优势,火山引擎RTC在特定说话人回声消除赛道也荣获冠军。
传统AEC+深度学习双管齐下
解决复杂双讲场景中的回声消除难题
回声消除是音视频通话中最难的技术之一,而“双讲”则是回声消除应用中最复杂的场景。例如在视频会议、线上小班课等多人音视频通话场景中,如果近端和远端同时说话,远端的声音信号通过扬声器播放出来,又和近端的声音混合在一起被麦克风收录进去,远端就会听到回声,且听不清近端的语音内容。双讲场景回声消除比普通场景回声消除难度要大,因为既需要把远端的回声尽量消除干净,又不能矫枉过正,并保护近端的语音信号尽量不被损伤。
在双讲场景中,当回声的能量远远高于目标说话人的能量(比如扬声器离麦克风太近或其他原因)时,就会形成超低信回比场景(比如-20db以下)。下面这段样本中,女声为目标说话人语音,男生为非目标说话人语音(回声),目标语音几乎被非目标语音完全覆盖,回声消除挑战极大。
火山引擎RTC对AEC处理框架中的线性AEC模块和残留回声抑制处理模块进行了创新优化,在线性AEC模块中,保护近端语音不受损伤的同时,最大程度抑制回声中的线性成分,减轻后续残留回声抑制模型的负担;在残留回声抑制模块中,基于低延时深度学习网络来抑制回声中非线性残留成分,同时在特定说话人回声消除Track上额外引入说话人声纹信息,在去除回声的同时也抑制非目标说话人的语音。通过以上处理,火山引擎RTC在超低信回比双讲场景中也取得了优秀的回声消除效果。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。