360度视频中的空间音频：它会影响视觉注意力吗?

高品质的空间音频为听众提供了全方位体验声音的机会。其中一种技术是 Ambisonics 或 3D 音频，可提供完整的 360° 音景。演讲主要报告了一项研究成果，该研究旨在了解空间音频如何影响 360° 视频中的视觉注意力，通过捕获隐式、显式和客观指标来评估空间音频对用户体验质量 (QoE) 的影响。

我们的大脑能感知大量的信息。尽管其能力非常强大，也不能对每一个刺激都给予同样的重视。为了选择最相关的信息，大脑使用了一种叫做“注意力”的过滤器。当一个人在视觉上探索周围环境时，最容易引起注意的区域被称为显著区域。除了视觉外，听觉是人类从周围环境中收集信息的重要感官。声音可以引导视觉注意，这可能会增强对视觉刺激的检测和反应。

360度视频

360°视频能够同时记录场景每个方向的视图，目的是让观众在体验过程中能沉浸其中。头戴式显示器 (HMD) 技术是体验360°视频的一种流行方式，用户可以通过显示器以 6 个自由度 (DOF) 观看和体验视频。当前视野(FoV)是一个固定大小的区域，基于用户的头部方向显示，通常在90°到110°的范围内。这种程度的互动能够让用户产生更浸入式和真实的体验。然而，由于观看者永远不会同时看到完整的 360° 视频，因此以全分辨率流式传输整个视频在包括带宽、存储和计算在内的资源方面是浪费的。为了优化现有的360°视频流应用，预测可能吸引观众注意的视频区域，可以使用计算视觉注意模型来估计显著区域。

空间音频

声音也是沉浸式体验的重要组成部分，由于其更逼真的特征、自然的聆听体验、更好的定位精度等特性，近年来，空间音频的使用逐渐兴起。音频的空间特性在向观众告知对象在环境中的位置、引导视觉注意力和实现临场感方面发挥重要作用。

Ambisonics是一种用于录制，混合和播放3D 360度三维音频的方法。Ambisonics的基本方法是将音频场景视为来自中心点不同方向的完整360度声音范围。中心点是录音时放置麦克风的位置，或播放时聆听者的“最佳位置”。如今，在VR和360视频中广泛使用的最受欢迎的Ambisonics格式是一种称为Ambisonics B格式的4通道格式，该格式使用少至四个通道来再现完整的声音范围。一阶B格式（又称为4通道B格式）的四个通道分别称为W，X，Y和Z。与传统环绕技术相比，一阶b格式以更高的分辨率提供空间沉浸感，而更高阶b格式音频可以提供更高的空间分辨率，提供更多具有不同极性模式的声道。例如，二阶Ambisonics使用9个通道，三阶Ambisonics使用多达16个通道，六阶Ambisonics使用49个通道。

研究问题

在360°视频的研究背景下，对视觉和听觉显著性模型的组合的研究相对较少。本文以360°视频和双音效为研究对象，研究了非空间音频和空间音频(三阶双音效)在360°视频中对用户体验质量和视觉注意力的影响。

实验过程

数据集

依据持续时间、内容、类别，为实验选择了 10 个具有三阶 Ambisonic 声音的 360° 视频。这些视频大致分为室内和室外（每个类别 5 个），进一步细分为歌剧、乐器、骑术和探索。使用 ffmpeg 工具对选定的视频文件进行处理：a) 将每个视频的持续时间设置为 60 秒；b) 拼接视频；c) 将 Ambisonic 声音转换为立体声以获得非空间音频体验。将视频拼接在一起以创建 5 分钟（300 秒）的片段，这些片段以随机顺序呈现，以消除参与者的偏见。视频中没有叙述或字幕。

我们执行了用户试验，以生成一系列隐式、显式和客观指标的多模态数据集，这些数据集包含用户在VR耳机上观看带有立体声和三阶空间音频的360°视频，记录下来的数据包括：

头部和眼球运动
生理信号，如心率 Heart Rate (HR)、皮电活动 Electrodermal Activity (ECA)等
用户通过发布体验问卷自我报告的QoE

参与者

本研究采用便利抽样法，共招募20名参与者。他们的平均年龄为27岁，其中11名男性和9名女性。在20名参与者中，有8人之前使用过VR。

评估过程

评估分为五个关键阶段：10 分钟的信息阶段；10分钟的筛选过程；5分钟的训练阶段；15 分钟的测试阶段；5-10 分钟回答问卷。

在描述实验的信息阶段向参与者提供了信息表，如果参与者对实验有疑问，则在签署同意书之前回答这些问题。
在筛选阶段，评估参与者的视觉和听觉敏锐度以及颜色感知。对视力进行 Snellen 测试，使用 Ishihara 测试筛选参与者视力是否有红绿色盲缺陷。听觉测试包括通过耳机播放 250-8000 Hz 频率范围内的声音。该听力测试的准确度估计约为 10 dBHL（分贝听力水平），足以诊断轻度、中度或重度听力损失。完成视觉和听觉测试后，使用 E4 腕带在 5 分钟内捕获 HR 和 EDA 的基线指标。
在培训阶段，参与者在熟悉和舒适的环境中观看了一段 60 秒的包含非空间音频的360° 视频。
在测试阶段，参与者观看了两个分别包含立体声（ST）和空间三阶Ambisonic的 360° 视频，每个视频时长为 5 分钟。其中一个视频是在室内环境中录制的，另一个是在室外环境中录制的。每个参与者的视频播放顺序和伴随的声音条件都是随机的，以消除可能的偏见。在整个评估过程中采集了 HR 和 EDA 数据。为了安全起见并允许探索完整的 360° 视野，参与者坐在旋转椅子上。
最后，参与者需要完成一份主观问卷。平均而言，评估需要 45-50 分钟。

问卷和评分量表

我们开发了一份包含 20 个问题的问卷，以评估参与者在观看刺激后对存在感（7 个问题）、沉浸感（7 个）和声音的空间性（6 个）的感知。参与者被要求使用绝对类别评分（ACR）对每个问题进行评分。评分系统使用 Likert 五点量表（1-最低，5-最高）来确定用户是否同意或不同意这些陈述，并使用IBM统计分析软件包SPSS以95%的置信度进行独立样本t检验。

结果展示

瞳孔直径

声音条件（立体声和三阶）之间：在室内和室外类别中，平均最大瞳孔大小更多地处于三阶声音条件下。这一发现与之前的一些研究（非 VR）一致，这些研究表明瞳孔扩张与声音的响度有关，从频谱图中可以观察到三阶声音条件下影响更为显著。此外，之前的一项研究（非 VR）表明，身临其境的声音条件会导致瞳孔显著增大，这可能表明参与者经历了更大的认知对抗。

类别之间（室内和室外）：从结果中发现，对于两种声音条件，室内类别的平均最大瞳孔尺寸更大。这可以归因于这样一个事实，即在光线不足的情况下，瞳孔会张开或扩大，以让更多的光线进入。当光线很亮时，它们会变小或收缩，以减少光线。室内的所有视频都是在封闭的礼堂内拍摄的，而室外类别的视频则更亮，因为它们是在光天化日之下在室外拍摄的。

QoE

由于参与者是两个独立组的一部分，使用IBM统计分析软件包SPSS对95%置信水平的数据进行独立样本t检验。在被问及的20个问题中，只有第18个问题询问了参与者对声音清晰度的感知，报告了具有统计学意义的差异，双侧检验的 p 值为 p=0.035，p<0.05。ST组的MOS评分为3.6，而HO组的MOS评分为4.3。问题16是唯一一个p值为0.087的问题，接近统计学意义。它旨在发现参与者在体验系统时对声音真实性的感知。对于其他问题，ST组和HO组之间的差异没有发现有统计学意义。