《三维声编解码及渲染》行业标准解读

2023年2月1日,国家广播电视总局发布了广播电视和网络视听行业标准《三维声编解码及渲染》,目前,这项标准完成了端到端的产业布局。此标准是三维声行业标准体系里面最重要的部分,也是最难的部分——所有技术都来自于自主知识产权的组成,因此含金量也最高。

2023年4月19日,在第29届中国国际广播电视信息网络展览会上,中央广播电视总台技术局音频制作一部关朝洋主任对标准进行了解读。此次解读主要分为三个部分,分别是制定背景、标准介绍、应用情况。

制定背景

广播电视声音格式经历了从单声道(1877年)到双声道立体声(1931年)再到环绕声(1987年)、三维声(2005年)的演进过程。简单来看,好像仅仅是增加了声道数,但其实不然。随着技术的发展,人们可以从质量和感受两个方向同时感受到广播电视图像和声音带来的改变。

图像方面,广播电视从标清发展到高清再到超高清4K/8K,不仅是分辨率上的变化,也是量化比特数、动态范围、色域的提升;而3D视频以及各种虚拟增强现实技术(VR/AR/XR),与普通视频图像相比,感受上的变化更为明显。

音频方面,目前我们所做的电视节目,包括立体声节目、环绕声节目、三维声节目等,都是按照24bit位深、48kHz采样率的标准制作出来的。即使是录音棚的母带制作,也基本上是按照24bit/96kHz或24bit/192kHz的标准制作出来的。因此,从质量上来讲,立体声节目、环绕声节目、三维声节目音频并没有特别明显的音质差异性。

但是,从感受上来讲,却有较大不同。从临场感来讲,立体声时代,声音就相较单声道节目有了比较大的飞跃,如提升了声音的辨识度、层次感、解析度,并具有较清晰的声像位置;环绕声时代,声音从一条直线的呈现上变成了具有包围感,只是这个包围感是存在于一个平面上的;三维声时代,声音进一步在感受的维度上变化,在高度上“站了起来”,我们称之为沉浸感

不同的声音格式与节目类型相匹配。比如,在空旷的原野上听到远处传来一声清脆的枪声,这样的呈现用单声道即可。因为枪声是直达声,环境中没有反射,也就无须空间感的呈现。但如果是在跳“锅庄”舞蹈时居中欣赏,用环绕声呈现的话,人们就会体验到包围感。而在森林里穿行时,风吹草木的声音围绕在周围,树顶还有鸟鸣猿啼,用三维声呈现的话就有非常具象的沉浸感。

在三维声格式下,使用多个声道承载不同的音频信号,通过包围听音者的位于不同高度层的多个扬声器直接重放,或经过渲染,或映射后重放,提供更高的声像定位空间解析度,给听音者带来沉浸式的声场感受。

三维声也有一些“别名”,如平常大家接触到的沉浸声、沉浸声效、空间音频、空间音效、3D Audio、Immersive Audio等,其实都是在指三维声。根据三维声不同的技术特点,可以分为不同的技术分支,如杜比Atmos全景声、MPEG-H、Auro 3D、DTS X,以及三维菁彩声(Audio Vivid)等。

此处,还必须提到两个名词,那就是“对象”和“交互”。从2012年开始,三维声中“对象”的概念正式出现,正是“对象”和元数据结合,才有了“交互”的可能,这是之前所有的声音格式都不具有的特点。

长期以来,一方面,用户在品质方面的诉求形成了我们在行业标准领域的用户需求;另一方面,超高清已是广播电视发展的必然趋势。在声音格式的匹配度方面,广播电视从模拟转为标清,是立体声的声音格式与之匹配;随着高清的播出,呈现的声音格式是5.1环绕声;而超高清4K/8K的播出,如果依然用环绕声来制作,格式上就显得的不那么匹配了,我们希望有更高级的声音格式,也就是下一代音频技术(Next Generation Audio,NGA)出现。

因此,制定和发布三维声的行业标准已成为刚性的,也是迫切的需求。需要注意的是,我们的标准制定应该遵守三个原则:一是自主可控,也就是不依赖于别人的授权;二是管用好用,就是要真正做到品质过关,表现稳定;三是技术完整,应该从端到端进行全链路覆盖,过程环节上要连贯。

标准介绍

三维声制播技术覆盖从音频信号采集、制作到编码传输,再到终端解码渲染呈现的全链路,可分为制作域、传输域、终端域三个部分。在制作域,无论是直播节目还是点播节目,它们使用相关的软硬件制作工具完成三维声的制作,之后,在传输域,节目通过广播网络或互联网网络,以电视信号或IP流的形式到达终端域,再经过解码渲染,才能呈现在人们面前。在这个过程中,编解码是其中的核心关键技术。

在广播电视行业三维声标准体系中,发布的第一个标准是《用于节目制作的先进声音系统》,它是对国际电信联盟ITU-R BS.2051建议书的引标,规范了三维声在制作域的监听标准。

而在传输域和终端域,2023年2月1日发布的最新的行业标准《三维声编解码及渲染》,是三维声的第二个标准,它规定了三维声的编解码和渲染。三维声标准系列中的第三个,是对国际电信联盟ITU-R BS.2076《音频定义模型》的引标,它定义了贯穿于最前端的制作到最末端的渲染中的元数据标准,这个标准正在制订的过程中,预计今年就会发布。

我们做个比喻,艺术家创作了一幅非常精美的画,为了方便交付给用户,把它切成很小的碎片以便于运输,这就像是压缩编码;在终端用户那把这幅画拼图复原就是解码渲染的过程。而元数据就像拼图的说明书一样,如果这个说明书标准规范,任何一个用户都可以照着这样的格式去复原任何一幅画。

《三维声编解码及渲染》行业标准的第一部分是适用范围的说明,它规定了三维声编码的位流表示方式及解码过程,给出了一种扬声器渲染和双耳渲染的参考实现方法,适用于广播电视和网络视听领域的三维声、环绕声、立体声编解码及渲染;第二部分到第五部分是规范性引用文件、术语定义、缩略语,以及关于各种运算符的约定;第六部分是三维声编解码及渲染框架,属于整体性的描述,包括了对声道信号、对象信号、HOA信号,以及采样率、量化精度和声道数的总体描述;第七部分是高效有损音频编码的解码;第八部分和第九部分分别是无损音频解码和元数据解码。附录A至附录G,分别描述了编码位流的语法语义、码表、元数据参数、多音箱渲染和双耳渲染、通用码率编码,以及元数据在本标准和ITU-R BS.2076中的对应关系。

《三维声编解码及渲染》行业标准解读

《三维声编解码及渲染》行业标准的特点如下:第一,标准拥有完全的自主知识产权,属于强强联合。2022年4月到10月,我们进行了多维度、多类型、多码率的大量的测试比对工作,以保证每段组成部分都选择了最优的技术,而最优技术之间的联合必须保证从端到端顺畅的、完整的覆盖。

第二,标准采用的技术表现和目前世界主流技术水平相当,三维菁彩声(Audio Vivid)也是全球第一个基于AI的声音编解码技术。AI技术的引入在同等码率、同等音质下大大提高了编解码效率,不仅支持16个声道,即使是较低码率下,如384kbps,也能够保证足够好的声音质量。

第三,标准支持高阶声场(HOA),它支持7阶HOA编码和HOA空间压缩技术。

第四,它是真正的下一代音频技术(NGA),不仅具备用户交互的能力,也可以进行元数据的扩展。这不仅仅意味着在世界杯期间可以收听不同语言的解说、体验不同球队球迷的不同氛围,对元数据的使用和对音频对象的定义,也会给节目样态和呈现方式带来全新的改变。

第五,标准是向下兼容的,完全兼容双声道立体声和5.1环绕声。在总台的播出实践中,也兼容原有流程。比如,同一个节目的同一个音频文件可以面向不同的播出需求复用:8K播出使用全部16个声道,高清/4K环绕声播出取前8个声道,立体声播出取7/8声道,声道的排布和以前一致,简化播出策略,排除安全隐患。

第六,标准适合多场景应用,主要包括多音箱、Soundbar、双耳渲染、车载等方式。其中,多音箱声音效果最好,但成本较高,除了设备采购成本,还需要空间布局的成本;Soundbar相对而言降低了成本,但对于空间不规则、不具备反射条件的场景,声音呈现效果会打折扣;双耳渲染是现在年轻人最喜闻乐见的收听方式,更适于利用碎片化的时间,随时随地欣赏节目,且具有一定私密性。对于双耳渲染,可通过HRTF和BRIR技术不断优化,使它的定位越来越好,声音也越来越接近多音箱的呈现效果。

最后,三维声发展速度快、前景好,目前还没有发现明显的技术瓶颈,而且产业应用布局也非常迅速

应用情况

在总局和总台的联合支持和推动下,从2022年8月开始对三维菁彩声(Audio Vivid)进行节目制作示范应用,其产业链条的跟进和内容产品的生产响应也非常迅速。比如,总台中秋晚会“百城千屏”8K播出在云听APP端的三维声呈现,春晚节目在央视频上竖屏直播;当虹科技在超高清AVS3编码器/解码终端/机顶盒的支持,海思、国科微的芯片支持;赛因、抖音、华为则是给予了制作插件支持。除了总台的云听APP,喜马拉雅、咪咕视频等也都有不同的Audio Vivid内容呈现。

2023年,总台超高清视音频制播呈现国家重点实验室再次立项三维菁彩声相关项目,在完善技术的同时,研发适配的系统,形成规模性示范应用。后续,我们会持续推进三维菁彩声的应用,实现标准从现在3自由度(3DoF)到6自由度(6DoF)层面上的升级,最终目标是形成成熟的产业生态布局。

转自 | 广播电视信息

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论