高品质的空间音频为听众提供了全方位体验声音的机会。其中一种技术是 Ambisonics 或 3D 音频,可提供完整的 360° 音景。演讲主要报告了一项研究成果,该研究旨在了解空间音频如何影响 360° 视频中的视觉注意力,通过捕获隐式、显式和客观指标来评估空间音频对用户体验质量 (QoE) 的影响。
我们的大脑能感知大量的信息。尽管其能力非常强大,也不能对每一个刺激都给予同样的重视。为了选择最相关的信息,大脑使用了一种叫做“注意力”的过滤器。当一个人在视觉上探索周围环境时,最容易引起注意的区域被称为显著区域。除了视觉外,听觉是人类从周围环境中收集信息的重要感官。声音可以引导视觉注意,这可能会增强对视觉刺激的检测和反应。
360度视频
360°视频能够同时记录场景每个方向的视图,目的是让观众在体验过程中能沉浸其中。头戴式显示器 (HMD) 技术是体验360°视频的一种流行方式,用户可以通过显示器以 6 个自由度 (DOF) 观看和体验视频。当前视野(FoV)是一个固定大小的区域,基于用户的头部方向显示,通常在90°到110°的范围内。这种程度的互动能够让用户产生更浸入式和真实的体验。然而,由于观看者永远不会同时看到完整的 360° 视频,因此以全分辨率流式传输整个视频在包括带宽、存储和计算在内的资源方面是浪费的。为了优化现有的360°视频流应用,预测可能吸引观众注意的视频区域,可以使用计算视觉注意模型来估计显著区域。
空间音频
声音也是沉浸式体验的重要组成部分,由于其更逼真的特征、自然的聆听体验、更好的定位精度等特性,近年来,空间音频的使用逐渐兴起。音频的空间特性在向观众告知对象在环境中的位置、引导视觉注意力和实现临场感方面发挥重要作用。
Ambisonics是一种用于录制,混合和播放3D 360度三维音频的方法。Ambisonics的基本方法是将音频场景视为来自中心点不同方向的完整360度声音范围。中心点是录音时放置麦克风的位置,或播放时聆听者的“最佳位置”。如今,在VR和360视频中广泛使用的最受欢迎的Ambisonics格式是一种称为Ambisonics B格式的4通道格式,该格式使用少至四个通道来再现完整的声音范围。一阶B格式(又称为4通道B格式)的四个通道分别称为W,X,Y和Z。与传统环绕技术相比,一阶b格式以更高的分辨率提供空间沉浸感,而更高阶b格式音频可以提供更高的空间分辨率,提供更多具有不同极性模式的声道。例如,二阶Ambisonics使用9个通道,三阶Ambisonics使用多达16个通道,六阶Ambisonics使用49个通道。
研究问题
在360°视频的研究背景下,对视觉和听觉显著性模型的组合的研究相对较少。本文以360°视频和双音效为研究对象,研究了非空间音频和空间音频(三阶双音效)在360°视频中对用户体验质量和视觉注意力的影响。
实验过程
数据集
依据持续时间、内容、类别,为实验选择了 10 个具有三阶 Ambisonic 声音的 360° 视频。这些视频大致分为室内和室外(每个类别 5 个),进一步细分为歌剧、乐器、骑术和探索。使用 ffmpeg 工具对选定的视频文件进行处理:a) 将每个视频的持续时间设置为 60 秒;b) 拼接视频;c) 将 Ambisonic 声音转换为立体声以获得非空间音频体验。将视频拼接在一起以创建 5 分钟(300 秒)的片段,这些片段以随机顺序呈现,以消除参与者的偏见。视频中没有叙述或字幕。
我们执行了用户试验,以生成一系列隐式、显式和客观指标的多模态数据集,这些数据集包含用户在VR耳机上观看带有立体声和三阶空间音频的360°视频,记录下来的数据包括:
- 头部和眼球运动
- 生理信号,如心率 Heart Rate (HR)、皮电活动 Electrodermal Activity (ECA)等
- 用户通过发布体验问卷自我报告的QoE
参与者
本研究采用便利抽样法,共招募20名参与者。他们的平均年龄为27岁,其中11名男性和9名女性。在20名参与者中,有8人之前使用过VR。
评估过程
评估分为五个关键阶段:10 分钟的信息阶段;10分钟的筛选过程;5分钟的训练阶段;15 分钟的测试阶段;5-10 分钟回答问卷。
- 在描述实验的信息阶段向参与者提供了信息表,如果参与者对实验有疑问,则在签署同意书之前回答这些问题。
- 在筛选阶段,评估参与者的视觉和听觉敏锐度以及颜色感知。对视力进行 Snellen 测试,使用 Ishihara 测试筛选参与者视力是否有红绿色盲缺陷。听觉测试包括通过耳机播放 250-8000 Hz 频率范围内的声音。该听力测试的准确度估计约为 10 dBHL(分贝听力水平),足以诊断轻度、中度或重度听力损失。完成视觉和听觉测试后,使用 E4 腕带在 5 分钟内捕获 HR 和 EDA 的基线指标。
- 在培训阶段,参与者在熟悉和舒适的环境中观看了一段 60 秒的 包含非空间音频的360° 视频。
- 在测试阶段,参与者观看了两个分别包含立体声(ST)和空间三阶Ambisonic的 360° 视频,每个视频时长为 5 分钟。其中一个视频是在室内环境中录制的,另一个是在室外环境中录制的。每个参与者的视频播放顺序和伴随的声音条件都是随机的,以消除可能的偏见。在整个评估过程中采集了 HR 和 EDA 数据。为了安全起见并允许探索完整的 360° 视野,参与者坐在旋转椅子上。
- 最后,参与者需要完成一份主观问卷。平均而言,评估需要 45-50 分钟。
问卷和评分量表
我们开发了一份包含 20 个问题的问卷,以评估参与者在观看刺激后对存在感(7 个问题)、沉浸感(7 个)和声音的空间性(6 个)的感知。参与者被要求使用绝对类别评分(ACR)对每个问题进行评分。评分系统使用 Likert 五点量表(1-最低,5-最高)来确定用户是否同意或不同意这些陈述,并使用IBM统计分析软件包SPSS以95%的置信度进行独立样本t检验。
结果展示
瞳孔直径
声音条件(立体声和三阶)之间:在室内和室外类别中,平均最大瞳孔大小更多地处于三阶声音条件下。这一发现与之前的一些研究(非 VR)一致,这些研究表明瞳孔扩张与声音的响度有关,从频谱图中可以观察到三阶声音条件下影响更为显著。此外,之前的一项研究(非 VR)表明,身临其境的声音条件会导致瞳孔显著增大,这可能表明参与者经历了更大的认知对抗。
类别之间(室内和室外):从结果中发现,对于两种声音条件,室内类别的平均最大瞳孔尺寸更大。这可以归因于这样一个事实,即在光线不足的情况下,瞳孔会张开或扩大,以让更多的光线进入。当光线很亮时,它们会变小或收缩,以减少光线。室内的所有视频都是在封闭的礼堂内拍摄的,而室外类别的视频则更亮,因为它们是在光天化日之下在室外拍摄的。
QoE
由于参与者是两个独立组的一部分,使用IBM统计分析软件包SPSS对95%置信水平的数据进行独立样本t检验。在被问及的20个问题中,只有第18个问题询问了参与者对声音清晰度的感知,报告了具有统计学意义的差异,双侧检验的 p 值为 p=0.035,p<0.05。ST组的MOS评分为3.6,而HO组的MOS评分为4.3。问题16是唯一一个p值为0.087的问题,接近统计学意义。它旨在发现参与者在体验系统时对声音真实性的感知。对于其他问题,ST组和HO组之间的差异没有发现有统计学意义。
音频频谱
声音强度更高被认为更响亮。频谱表明,与立体声相比,三阶 Ambisonics 声音的强度更高。
总结与展望
本文的主要贡献包括:
- 独特的数据集:包含头部姿势、眼睛注视、生理数据、跨非空间和空间声音条件的主观问卷。参与人数多,实验条件优越。
- 从姿势和眼神注视分析各种含有非空间和空间声音的室内、室外视频内容的固定区域和显著性区域。
- 在室内和室外类别中,不同声音条件下每个视频的姿势和注视分布、重叠、接近度等。
- 构建跨视频的音频能量分布图,以关联姿势、注视的固定性和显著性。
- 针对不同声音条件和视频类别的瞳孔大小变化分析。
- 基于主观问卷和生理数据的 QoE 分析。
未来的工作:
- 使用立体声、一阶和三阶 Ambisonics 声音进行更多用户测试。
- 开发一个跨模态注意力模型,借助音频信息预测显著性区域。
- 使用机器/深度学习研究音频线索与视觉线索在预测显著性地图中的适用性。
来源:ACM MMSys2022
视频链接:https://www.youtube.com/watch?v=kwvurNOL3mA
主讲人:Amit Hirway
内容整理:刘希贝
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。