空间音频在视频会议场景中的应用

编者按：空间音频（Spatial Audio）在影院、游戏、虚拟现实、舞台录音等场景中得到了广泛的应用，它提供给用户更加接近于真实的听觉感受。空间音频的实现方式有多种，常见的有基于心理声学原理、基于物理声场的重构、和基于双耳音频的精确重放。在人与人的交流沟通场景中，人的双耳听觉对于在嘈杂环境下语音信息的提取和理解起到关键的作用，对提升交互体验和提升有非常大的帮助，但是到目前为止空间音频在远程视频会议沟通场景中的应用还非常少。本次LiveVideoStackCon 2022 上海站邀请到了广州迈聆信息科技有限公司的的李勤老师，一起探讨空间音频在视频会议场景中应用的技术挑战和实现方式。从系统的角度探讨如何在视频会议中提供给用户更好的听觉体验。

文/李勤
整理/LiveVideoStack

大家好，我叫李勤，来自广州迈聆信息科技有限公司。本次分享的话题是空间音频在视频会议场景中的应用。

本次分享有上图五个部分。

01 引言为什么选择空间音频这个话题？

首先为什么选择空间音频这个话题？本人在视频会议领域耕耘了将近二十年，我们一直以来的目标是让声音更清晰，让视频更清晰。但是在过去20年，视频会议的产品形态并没有本质改变。去年元宇宙比较火，微软、Facebook都在做基于VR和元宇宙的企业协作方面的研究，我们对此也进行了探讨。

我们一开始想从纯技术的角度研究空间音频技术在视频会议场景中如何应用，但在研究的过程中发现这是一个非常复杂的场景。因为视频会议从本质上来讲是人与人之间的沟通交流。而人与人之间的沟通是多维度信息传递，声音、图像、眼神、肢体语言、还有触觉等都是人与人之间沟通的要素，音频只是其中一个。本次分享从沟通与交流的角度、从视频会议场景出发，分析视频会议产品需要什么样的空间音频技术以及如何实现。

02 空间音频与沉浸式沟通

首先分享空间音频和沉浸式沟通的概念。

说起空间音频大家不会陌生，年初苹果发布了支持空间音频的耳机以及音乐，大家可能已经用过了；在电影院用到的杜比全景声和家庭影院中用到5.1声道环绕声想必大家也都听过。从技术角度来讲，我认为空间音频是通过技术手段去重放音频的空间信息，让聆听者有空间的感知。这是一个很抽象的定义，那我们来看看空间音频有哪些要素。

从感知的角度看，空间音频有以下要素：第一方位感，感知声音从那个方向传过来；第二空间感，这是对声源距离的感知，房间中声音的反射折射混响能帮助人判断声源的远近，但一般没有方向感知那么准确；第三与环境的互动，当我听到声音从一个方向传过来，我转向声音的方向，那声音相对我的位置就发生了变化。也许听觉不是很好理解，拿视觉举例会更加容易理解。在沉浸式的视觉交互中，我朝任何一个方向移动一步，所看见的视角都会发生变化。这就是与环境的互动。

空间音频常见应用包括音乐、娱乐、游戏等。本次想分享的是在实时音视频互动，特别是在视频会议场景中如何应用空间音频。

那空间音频对视频会议有什么帮助呢？从沟通的角度看，视频会议本质上是人与人之间沟通，而大部分人们更倾向于线下面对面的沟通，效率更高。在不同沟通场景中语音在所有形式的信息交换中所占的比例不同，有些可能不到一半。比如朋友间的沟通需要交流感情；商务会谈需要建立信任感。这些场景下仅仅靠语音沟通是不够的。

人的听觉系统的能力非常强大。在线下嘈杂环境中比如在酒吧，一般面对面的交流是没有困难的；但如果通过视频会议软件在线上沟通在这类的环境中是无法正常交流的。人们更加倾向面对面沟通其关键是体验和效率。

什么是高效的沟通方式呢？答案是沉浸式沟通 (Immersive Communication）。沉浸式沟通的关键因素包括：

自然的互动体验
与遥远的人和环境互动的能力，例如采取某种虚拟的方式加入了远端的空间，与环境进行互动；
提供某种程度的真实感。虽然身处一个物理空间，但当你加入了另外一个空间，就有身临其境的感觉。其中听觉与视觉是最重要因素，是主要探索方向。

沉浸式沟通对声音要求是清晰自然的沟通；还原声音的空间感（方向和距离远近）；听觉与视觉的一致性；听觉和视觉的变化和身体位置移动的一致性。其中最具挑战的空间音频的采集、处理和重放需要实时进行。这一点相对于看电影和听音乐有本质差别，在实现过程中带来很大挑战。

03 空间音频技术回顾

刚才讲了空间音频与沉浸式交互概念，现在回到技术的话题。

3.1 声音的方位感

空间音频的基本要素是方位感和空间感。方位感的产生有以下四个因素。一是双耳时间差，比较容易理解，声音从侧面传过来，离右耳近，左耳远，产生时间差，会被大脑解释不同的方向。二是双耳声级差，头部遮挡会带来声压级差异。三是人体的滤波效应（谱因素），两个耳朵的时间差只能定位水平方向，但声音在耳廓、肩部等位置反射可以帮助人定位来自于上下和前后方向的声音。四是头部的轻微晃动也可以帮助定位。人对声音方位的感知除了正下方之外几乎可以做到三维空间360度的感知。

3.2 声音的空间感

空气传播过程中，高频比低频衰减更多，距离远时高频成分更少，距离近时则声音会更加饱满。另外房间反射混响也会带来对空间大小及距离的感知。

3.3 空间音频技术

空间音频技术是通过音频算法来实现声音的空间信息重放，其中技术分成三类。一是基于心里声学原理和物理声场近似重放。利用心理声学的原理，“欺骗”人的听觉系统。二是基于物理声场精准重构，通过波场合成重建声场。三是基于双耳信号精准重放，下文会细说。

空间音频技术最常见是立体声技术，存在了很长时间。原理很简单，对一个声音通过改变两个喇叭上播放的馈给信号的大小，产生通路声压级差别，在人的双耳叠加，产生相延时差，利用人的心理声学效应产生虚拟声源。虚拟声源与喇叭角度之间满足正弦定理关系，从公式可以看出，模拟虚拟声源位置是在两个喇叭之间，一般情况下，在立体声可听范围是正负45度左右。

有了立体声的技术，人们思考能否将声场扩展到整个水平面上，于是就有了多通路环绕声技术，常见的有5.1通路与7.1通路，在家庭影院应用中非常普遍。其基本原理与立体声类似，对于给定的声像位置通过调节相邻喇叭的通路声压级来调整声像的位置。与双声道相比，环绕声可以带来后方和侧方虚拟声像，使声场更加丰富饱满，感知到的从前方正负45度扩大到水平360度的空间。

但多声道环绕声也有缺点，主要有两个方面：第一，对于多通道而言声音采集、声源制作、到声音重放都是按照固定的位置进行的。上图是ITU推荐的5.1声道的布置方式，声音的采集或者声源制作必须依照此图规定的位置。如果因为物理空间限制，喇叭如果不能按照规定的角度布置，听到的声音无法精确还原音源制作时的方位，还有可能出现错乱；第二，对于多声道环绕立体声技术，声音方向变化在侧后方的感知不连续，假设一架直升机绕着你以均匀的角速度飞，理想情况下，在此环境中你听到声源的移动应该是均匀的，但实际上在侧方后方会感知到声音方位的变化是不连续的，有跳跃感，从一个喇叭跳到另一个喇叭。

以上提到两个问题是否可以解决呢？Ambisonics技术就可以做到。这个词在70年代就有了，但没有对应的中文翻译。在这个技术实现中，录音用四个心型指向的麦克风，四个麦克风之间的角度都是120度。当采集空间音频信息时，原始信息叫A-Format，转换成常见编码方式是B-Format，其中W分量是无指向性，X是前后方向，Z是上下方向，Y是左右方向。Ambisonics最大优势为播放喇叭位置数目与采集通道解耦，可以根据房间大小位置布置喇叭，只要喇叭数目超过四个并知道水平和纵向方位角，通过公式矩阵，计算出喇叭的馈给信号，解决了采集与播放渲染的强关联问题。

Ambisonics的特点是采用通用信号表示空间信息，与最终播放设置无关，这对系统设计带来了很大的灵活性。其次当声音空间方位连续变化时它的体验更好。它的缺点是一阶的Ambisonics采用的是基于一阶球协函数展开的技术，对聆听位置有比较高的要求，在甜区之外对空间的感知可能不准确，这可以通过高阶Ambisonics改进，这里不细说了。

另外比较常见的基于双耳信号的精确重放技术，无论所处的物理环境有多复杂，声音最终是要被双耳感知，假如能够计算或模拟出耳朵听到的声音，就能完整地能够恢复声场，这里涉及到头相关传输函数HRTF，从数学角度来看，从一个声源到左耳右耳分别有各自的传递函数，将信号源和传递函数卷积，就得到耳朵听到的声音，这包括了从声源到耳朵传播的所有物理过程，包括方位、空间、头声音遮挡、耳廓身体反射等因素。由于头相关函数与每个人的生理结构有关，是因人而异的。双耳重放在VR、元宇宙中应用广泛。比如游戏中的枪声通过原始枪声信号和事先确定的头相关传递函数卷积计算就从而得到我们想听到的声音。

最后再简单提一下波场合成技术，其基础原理是波阵面中的每个点是下一个波阵面的次级声源。当我在说话，我的声音在空间中传播，如果我前方麦克风阵列将每个点的波场信息采集，在另外一个地方通过对应的扬声器回放，可以恢复出整个声场信息。这个方法实践起来会涉及到大数目麦克风阵列和喇叭阵列，比较难实现。

3.3 小结

小结一下。视频会议本质是人与人沟通交流，人们更喜欢现场沟通，因为现场沟通更自然，沟通效率更高。我们希望通过沉浸式沟通技术使得远程沟通的体验接近现场沟通的体验，沉浸式沟通离不开空间音频上述三类实现方式。

04 沉浸式沟通的场景和挑战

讲完空间音频基础技术后，从场景出发，看看对音频有什么要求与面临挑战。

第一个问题是如何才能实现沉浸式沟通。

沉浸式沟通有以下几个要素。首先沉浸式沟通必须基于一个空间，无论虚拟空间或物理空间，声音的空间感必须有一个承载空间，确定交互在哪个空间发生，才能对声音的空间信息进行重放。

根据空间的不同，定义了四个不同的沉浸式沟通模式。一是将对方搬到自己的空间；二是加入到对方的空间中；三是将两个物理空间连接；四是共同加入同一个虚拟空间。我们看下面几个例子。

第一个场景是有几个人在线下开会，远程有人加入。上图是星球大战中的一个场景，这里能看到有几个全息影像，这是典型的线下会议与线上会议互通场景，从本地会议看，是将远端的人拉到本地会议室，交互的空间是本地会议室；从远端参会人角度看，是加入到对方空间中，感知到的是对方会议室的空间感。

第二个场景是将两个会议室连接。想象两个会议室之间有以免无形的玻璃墙，可以看见听见对方，就像在同一个物理空间中，然后将中间变成物理隔断，两边有麦克风和摄像头，将声音和图像传输到另一边，将物理上不相连的两个会议室连在一起。

第三个场景是纯VR场景，所有人都在一个虚拟空间中，上图来自Facebook，完全基于元宇宙的开会场景，所有的人看到的东西，听到的东西，包括PPT的展示都是在虚拟空间中进行的。

上面讲了三个视频会议的场景。现在回到沉浸式沟通模式，每个模式特点与要求是什么呢？

对于第一种模式，将对方搬到自己的物理空间，从交互特点来说，对方的声音图像都是在自己的物理空间的范围内，像刚刚提到的全息影像，可以理解为远端参会人在本地会议空间中的代理，交互是在本地空间中发生的。而本地物理空间中的人之间可以自然沟通。所需要的音视频技术包括全息视频采集回放、空间音频的采集和回放，声音和图像位置的一致。

对于第二种模式，加入到对方的物理空间中，它的特点是虽然交互过程是虚拟的，但还是基于物理空间进行交互，感知到的是对方的物理空间。

对于第三种模式，虚拟空间，整个空间是虚拟的，交互过程也是完全虚拟的，利用双耳听觉，双眼视觉欺骗耳朵眼睛让人感觉是处于一个物理空间中，涉及到的技术包括动作捕捉，虚拟图像声像的生成，这里的特点是无论虚拟空间的人不管实际的距离有多近，没有物理交互，所有交互是虚拟交互。

对于第四种模式，联合空间，将两个会议室打通，其特点是虚拟空间和物理空间结合，对方的物理空间是自己的物理空间的拓展。不一样的是对方的影像和声音在感知上是从自己所处的物理空间之外传过来的。这里涉及到的技术非常有挑战，在目前看来很难实现，特别是从视频角度，不仅仅需要大屏将对方图像以真人的大小显示，还需要实现沉浸式视频交互中至少3个维度的自由，在不同位置所看到的图像不同。这个模式涉及到光场的采集和显示，这部分技术目前比较初级，离真正使用相差较远。

整体而言，在这四种模式中，VR全虚拟的技术是最容易实现的，现如今的技术也是最成熟的。真正难的是虚拟交互与物理交互的结合，必须考虑虚拟图像和声像的在物理空间如何展示和交互。

空间音频在实时通信中应用的挑战非常大，在娱乐领域，声音与图像大部分是事先处理好的。在游戏中内容的元素是事先生成的，所展示的空间位置可以根据游戏的交互而变化；而电影院中内容是完全是先制作好的。但视频会议中的音视频必须实时地采集、处理和重放，会有比较大的技术挑战。从音频前处理来说，单是回声消除算法，对于空间音频中多个麦克风对多个扬声器的情况实现的难度就非常高。还有沟通过程中的眼神交互也是非常难处理的。一般情况下因为摄像头并不在图像显示的位置上，因此当你看着远端人的图像，但远端的人并没有感觉你是在看着他的。因此实时交互中有很多挑战会影响沉浸式的体验。

这是一个目前行业中比较普遍的远真（Telepresence）会议系统。这类系统一般是部署在两个会议室之间，但是要注意的是：第一，表面上这个系统连接了两个会议室，但这个的本质是“把对方搬到自己所在的物理空间”，并不是两个物理空间的连接和扩展。第二，这一类的系统一般采取固定的摄像头视角，固定的麦克风采集位置，和参会人的坐位是强绑定的关系。第三，这类的系统里面并没有应用空间音频的算法，因为麦克采集和喇叭播放的位置是固定的，每一个屏幕下发都有一个扬声器，这样声像位置是固定的物理声像位置。

05 探索应用

讲完了空间音频技术，也讲了在沉浸式交互所需要场景，如何去做呢，应用方向在哪儿？

从产品化的角度来看，我们并不想纯粹做算法研究，我们希望有产品落地，因此要考虑到用户体验，技术可实现性以及安装部署的便捷等因素。第一个问题：从哪个场景切入？

5.1 产品维度

我们有以下从产品维度的考虑点：

一是尽量保留物理空间自然交互，这就把基于元宇宙的会议排除在外。这是我个人的看法，可能会有争议。我个人认为纯虚拟环境在目前无法模拟人与人之间自然沟通，听觉与视觉比较好模拟，但其他如平衡感、加速感、触觉无法模拟，但不排除将来会有脑机接口，跳过神经感受直接给大脑发信号，也许可以实现。在我看来从技术上讲虽然进步了，但是从沟通的角度看，即使物理上近在咫尺也要通过虚拟空间进行交互，失去了人与人之间的自然沟通，很难说是进步。目前想做的方向还是尽量保留物理空间自然交互，在技术能达到的情况下实现更多的沉浸式交互。

二是整个音视频设备的部署尽量简单，不影响本地会议的交互。

三是空间音频采集和回放与参会人具体数目和位置没有强关联，希望不像远真会议中只有几个固定位置。

四是考虑到与现有场景进行兼容，包括桌面共享、白板书等。

五是在将远端的人拉到本地的场景中，远端的人在本地的位置空间是由本地控制的。

5.2 场景

这里选了两个场景，第一个场景是两个或者多个会议室之间，在视频会议中最常见的场景之一，这里展示的是两个会议室。左边是本地会议室，右边是远端会议室，将远端会议室每个人的图像和声音在本地会议室呈现，在呈现过程中，做到左上角女孩说话，那么声音感觉从左上角发出而不是从电视下方发出。两个人在同时说话，能感知两个声音来自不同的方向。

第二个场景是单个会议室与远端的有多个个人开会，远端的人加入会议室，这是非常常见场景。每一个远端的人都是一路单独的码流，将他的声音和图像在本地会议室中播放，通过空间音频算法保证图像与声像位置的一致。

上图是第二个场景中具体的框架，从会议室到个人端通过双耳录音，多声道回声消除和降噪处理，双声道编码传输，到远端解码，双耳重放，就能在远端感受到会议室的空间效果。从个人终端到会议室，是通过在个人终端上采集图像声音，在本地会议室展现，通过围绕在显示器周围的喇叭和空间音频算法产生虚拟声像，保证声像和图像的一致性，能够给本地会议室用户带来沉浸式的体验。

5.3 技术方案

具体的技术方案包括音视频采集、音视频传输、音视频渲染。其中涉及到音视频前端处理、服务器转发策略，最终渲染是在端上实现，远端参会人在本地会议室窗口虚拟位置是通过本地设置或会议管理策略控制，与远端物理空间无关，只是将远端的人搬至物理空间。对于空间音频算法，这里采用的是VBAP算法，与上文提到双声道立体声技术类似，与之不同用的是利用相邻的三个扬声器，在两个空间方向上通过调整播放通路上声压级来调整虚拟声像的位置。

5.4 最终效果

最终实现的效果是有沉浸式的效果，但离理想中接近于自然交互的体验还有较大的差距。这里有会议空间的限制，常见的会议的位置排列，如上图中长方形和圆形的会议排列，对远程音视频交互体验是不友好的，很难有沉浸式的感觉。会议室的布置应采取下图的方式，所有的人面对显示屏，这样有很好的视觉呈现感，并且通过空间音频算法实现声音的空间感。空间音频算法本身也有一定限制，采取VBAP算法整体来说会有黄金位置，离开黄金位也会有方位感，但越往两边体验越差。其他的影响比如通话延时，对体验影响非常大，短期内很难改善。另外，摄像头的位置会影响到眼神视线的交流，也会对整个沉浸式视频体验有非常大的限制。整体而言，我们还是在比较初期的研究阶段，也希望整个行业可以有多一些投入，一起把会议室沉浸式交互体验做得更好。

最后做一个简单的总结，我们尝试用沉浸式沟通提升会议体验和效率，实现了两个会议室打通，以及一个会议室和多个个人沟通的场景；实现了两种沉浸式沟通模式，将对方拉到自己空间，和自己加入对方空间；我们采用了基于VBAP的空间音频算法，以及双耳录音和双耳重放技术实现空间音频的体验。

初步摸索是有效果的，但与理想还有较大差距，后续改进要有更好地空间音频算法。高阶Ambisonics算法能提供更好准确的空间位置感，是我们下一步想要探索的方向。

关于“如何才能实现沉浸式沟通”，我的回答是目前没有单一的技术可以完全做到实现沉浸式沟通，一定是音频和视频，软件和硬件一起突破才能最终实现沉浸式沟通效果。如果大家对话题感兴趣可以阅读下The Road to Immersive Communication 这篇文章，这是2013年一位微软研究员写的，对我们在整个研究过程中有很大的启发。

最后感谢广州迈聆和MAXHUB团队对这项研究工作的支持。广州迈聆主打产品是视频会议软件和服务，也提供PaaS服务及行业解决方案。MAXHUB是广州视源旗下的一个品牌，主打一体式智能书写大屏以及音视频终端、外设等，是行业的领导者。目前广州迈聆与MAXHUB合作打造了一整套高质量的视频会议解决方案。此项工作就是基于这套视频会议解决方案开展的。

谢谢大家，我的分享就到这里。