INTERSPEECH 2022 |快手在会议场景的客观语音质量评估挑战赛中斩获佳绩

近日,由全球语音技术顶尖会议INTERSPEECH 2022举办的会议场景下非侵入式客观语音质量评估挑战赛成绩正式公布,快手音视频技术团队在包括皮尔逊相关系数(pearson correlation coefficient,PCC)和均方根误差(root mean square error,RMSE)的全部指标中均跻身世界前三,综合得分(RMSE_MAP)斩获全球亚军。

INTERSPEECH 2022 |快手在会议场景的客观语音质量评估挑战赛中斩获佳绩
图1会议场景下非侵入式客观语音质量评估比赛成绩

01 背景

实时语音通信系统在日常工作和生活中已得到广泛应用。在会议场景中,语音音质会受到许多因素影响,如背景噪声、房间混响、传输信道丢包和抖动等。无论是语音通信系统中的音频算法迭代,还是网络传输服务提供商的资源统筹和排障,都需要一种能够在各种使用场景下评价语音质量的方法。由于主观测试成本较高,如ITU-T P.800的测试方法需组织大量人员参与,因此,需要一种有效的客观评估方法来评价或监控正在进行对话的语音质量。

02 挑战赛任务

本次语音质量评估大赛涵盖了实时语音通信过程中可能遇到的各种语音质量损伤场景,发布了超过86,000条数据的主观质量分数语料库。参赛队伍需使用这些语音信号和对应的主观评分,开发评估语音质量的算法,以达到更接近人主观听感的效果。该项挑战赛共吸引了来自中国,巴基斯坦,加拿大,印度,美国,爱尔兰,韩国,瑞士,德国等10个国家和地区的学术界和工业界团队报名,竞争激烈。

03 针对音质损伤的预训练方法

为了实现以上目标,快手音频团队搭建了一种针对语音音质损伤类型的预训练方法。该预训练网络的目标为在网络产生的特征空间(embedding space)中拉近相同损伤类型(不同语音内容)信号的距离,并拉远不同损伤类型(相同语音内容)的距离,使得网络产生的特征向量(embedding)可以描述输入语音的损伤类型。该预训练方法不依赖主观音质标签,团队通过数据增广方法增加了2,000小时的预训练数据,覆盖会议场景的各种损伤类型,提升最终模型泛化能力。使用比赛提供的语料库对预训练模型进行进一步训练,最终得到预测人主观听感的语音评测网络。

INTERSPEECH 2022 |快手在会议场景的客观语音质量评估挑战赛中斩获佳绩
图2:语音损伤预训练方法

来源:快手音视频技术
链接:https://mp.weixin.qq.com/s/jz_tQUJlhqbLPW_OSLUmvw

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论