2024年6月13日,第89次AVS工作组会议在绍兴召开。AVS音频组经过讨论,正式宣布,《信息技术 智能媒体编码 第 10 部分:实时语音》(以下简称AVS3-P10) 已经完成FCD(Final Committee Draft)阶段,即将正式对外发布。AVS3-P10是全球首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,为全球语音技术的发展带来革命性的突破。
实时语音通信技术(RTC: Real-time Communication)已广泛应用于在线会议、协同办公、互动娱乐、社交等领域,上述多样丰富的应用场景给实时语音通信技术提出了多种技术挑战,其中,高质量、低延时、低带宽、高抗性的语音编码是非常重要的一环。传统的语音编码器,包括AVS、ITU-T等标准语音编码器,在16-20kbps左右码率时,能够恢复出高质量宽带语音;在30-35kbps,可以恢复出高质量超宽带甚至全带语音。然而,当码率进一步降低(如:降到10kbps以下时),传统语音编码器恢复的质量下降明显,影响用户体验。
基于上述应用诉求,在2023年3月第84次AVS会议上,由腾讯提议在AVS音频组启动面向实时语音通信场景的低码率高质量语音编码项目。经过需求分析,在第85次AVS工作组会议上,决定立项AV3-P10实时语音编码项目,并通过AVS音频组发出技术征集书。AVS3-P10实时语音编码项目由来自腾讯会议天籁实验室的肖玮负责推进和维护。
2023年12月第 87 次 AVS 会议上,AVS3-P10 WD 1.0通过全体会议审议;腾讯会议天籁实验室提交的技术方案,被选择为AVS3-P10实时语音编码的RM0基线。
2024年3月第88次AVS会议上,音频组组长清华大学窦维蓓教授宣布了《信息技术 智能媒体编码 第10部分:实时语音》已经完全满足技术需求,主客观测试验证表明其性能在多个对比项中表现最优,标准制定工作由工作组草案(WD)阶段进入委员会草案(CD)阶段。
AVS3-P10标准制定过程中,采用按照ITU-T P.800 DCR主观质量评价规范,并由中国电子技术标准化研究院和华为分别进行了主观测试和交叉验证。
主观测试结果表明,在单声道编码场景,AVS3-P10在宽带和超宽带等多个主要测试场景均达到了4.0以上MOS分,体现出明显优势,最低码率可达5.9kbps。AVS3-P10采纳了深度神经网络技术,自带的丢包损伤能力,有效提升了编码器在网络不佳时的质量。
在立体声编码场景,AVS3-P10集成了在AVS音频历代标准中采用的基于极大相关旋转(MCR:Maximum Correlation Rotation)的参数立体声编码技术。经过测试,码率低至7.6kbps时也可实现高质量双声道立体声编码效果,主观质量均达到4.0以上MOS分。在低于17kbps的测试码率条件下,AVS3P10的CD1.0实现了双声道立体声主观质量均超过对比系统。
此外,在ITU-T P.863客观质量评价实验中,AVS3-P10 RM0也体现出了显著优势。第一,在所有8个测试码率中,AVS3-P10 RM0均超过4.0MOS,最高在4.45MOS。在AI Codec领域,AVS3-P10 RM0在相近码率下,质量优势在0.6MOS以上。上述测试结论均反映出,AVS3-P10 RM0代表了目前AI Codec的最高水平。
上述测试结果表明,AVS3-P10质量,可以对齐OPUS和EVS等传统信号处理编码器在中高码率的表现,达到运营级质量。AVS3-P10技术水平、语音质量达到国际一流水准,为全球语音通信技术树立了新的标杆。
AVS3-P10实时语音标准FCD的完成,具备了提交AVS工作组进行最终审批的条件。该标准离不开AVS音频组成员单位的共同努力和贡献。AVS3-P10 实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。
该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求,体现了业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。