AVS3-P10实时语音标准制定工作进入CD阶段,预计2024年正式发布

2024年3月21日上午,在深圳鹏城实验室举行的第88次AVS标准工作组会议开幕式上,音频组组长窦维蓓宣布了《信息技术 智能媒体编码 第10部分:实时语音》(AVS3-P10)已经完全满足技术需求,主客观测试验证表明其性能在多个对比项中表现最优,标准制定工作由工作组草案(WD)阶段进入委员会草案(CD)阶段。这一进展标志着AVS3-P10标准制定取得了重大突破,为实时语音通信领域注入了创新的活力。

作为全面和系统性引入AI技术的全球首个实时语音编码标准,AVS3-P10真正实现了高质量前提下的低码率编码。按照计划,AVS3-P10标准将于2024年正式发布。

AVS3-P10实时语音标准制定工作进入CD阶段,预计2024年正式发布

在2023年12月16日公布的N3718(AVS3-P10《信息技术 智能媒体编码 第10部分:实时语音》WD1.1)已经实现了低码率、高质量的单声道实时语音编码,在此基础上,2024年3月15日公布的N3758 (AVS3-P10《信息技术 智能媒体编码 第10部分:实时语音》CD 1.0),在技术上集成了在AVS音频历代标准中采用的基于极大相关旋转(MCR:Maximum Correlation Rotation)的参数立体声编码技术,并针对实时语音场景重新优化了码书。经过测试,码率低至7.6kbps时也可实现高质量双声道立体声编码效果,更符合AVS3P10高质量、低码率的性能要求。

按照ITU-T P.800 DCR主观质量评价规范,中国电子技术标准化研究院的交叉验证,结果表明:在宽带和超宽带场景下,在低于17kbps的测试码率条件下,AVS3-P10的CD1.0实现了双声道立体声主观质量均超过对比系统。

AVS3-P10实时语音标准制定工作进入CD阶段,预计2024年正式发布

进入CD阶段是AVS3-P10标准的关键里程碑,预示着实时语音通信、在线会议等领域的技术创新和应用发展将迎来新的飞跃。

AVS3-P10 实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。该标准代表了主要技术贡献单位——腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求,体现了业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。

AITISA联盟简介

新一代人工智能产业技术创新战略联盟(AITISA)由两百余家来自人工智能行业内的顶尖企业、高校和科研院所、资本机构、服务机构、创新创业企业组成。联盟立足于人工智能技术资源及产业环境,联合人工智能领域的产、学、研、用、资、服等单位,以建立人工智能技术创新生态体系为基本愿景。 联盟通过“一体两翼”的工作部署,聚集工业界、科研界的中坚力量及相关机构,利用产业基金的引导,服务企业与开发者,推进人工智能产业的发展。

“一体两翼”中的 “一体”是指新一代人工智能开源开放平台(OpenI启智社区),“两翼”的“左翼”是以技术专家为主体组成的多个工作组,包括标准工作组、知识产权工作组、投融资工作组等。“右翼”是为以企业为主体的应用推进组,目的是促进人工智能在各产业领域的应用,已经在智能物流、智能医疗、智能政务、智能教育等方向开展工作。

自成立以来,联盟主办了全球人工智能产品应用博览会(AIExpo)、系列AITech国际智能科技峰会、上交会人工智能展区、天津世界智能大会分论坛、启智开发者大会等有重大影响力的会展活动,承办全国人工智能大赛,发布并启动了新一代人工智能开源开放平台(OpenI启智社区)、“新一代人工智能燎原计划”等。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论