ECCV 2022｜视频会议内容质量评价方法

新冠疫情波及全球，迫使很多人在家进行工作和学习，视频会议的流量也因此急剧增加。如果有高效且准确的视频会议内容质量评价工具，就能够很好的监控和感知并协助视频会议的优化。然而现有模型在多模态实时远程呈现内容上的预测能力有限，亟需兼顾在实时性和多模态预测上都做的很好的评价方法或模型。

远程呈现内容（telepresence content）的质量评价的主要挑战包括：成功地集成多模态信号，解决主观标记数据的缺乏，以及有效地建模直播内容质量的预测。

本文构建并使用了远程呈现内容的视听质量主观数据库，通过学习方法有效地建模多模型特征，并以在线提供各种类型的质量反馈。本文的主要贡献如下：

第一个专门用于远程呈现视听质量的主观数据库。从 YouTube 和互联网档案馆收集了 2320 个远程呈现内容视频，并从 500 多名受试者中收集了大约 79K 的人类主观质量评分。

第一个在线远程呈现视频质量预测模型，称之为 Tele-VQA。这种新模型通过使用高效的 backbone 来提取多模态特征并将其集成到音频和视觉回归器中，可以在视频流到达时提供快速的高质量反馈。

一个一体化的视听质量框架，可以处理视频和音频，在补丁、帧、视频块和视听水平上提供质量预测。Tele-VQA 的图像版本，称之为 Tele-IQA，显示了比以前最先进的模型更好的性能，而只需要 35% 的参数。

下文主要介绍TVQA的模型方法。

TVQA模型方法

TVQA算法应该包括两种主要的模式。如图所示，应用层中的一个质量测量模块接收已呈现的多媒体源，并向优化传输层的控制输入提供反馈。这意味着设计成功的TVQA模型有三个要求。

首先，视频和音频的质量都需要被准确地建模。虽然主观实验表明，视觉成分通常主导整体视听感知的质量，但音频质量并不是微不足道的（在远程呈现中，更重要），某些类型的音频失真（如背景噪声）会导致音频成分显著地影响人们对远程呈现体验质量的整体感受。其次，TVQA 算法应该能够处理“缺失模态”的问题，即如果在视频通话过程中视频或音频信号不存在，那么剩余信号的质量仍然可以被准确地预测。第三，TVQA 算法应该能够对每个模态提供单独的质量测量以及整体质量预测。这些可用于调整每个模态的网络流量优先级。

基于这些考虑，首先设计了一个名为 Tele-IQA 的图像模型，以有效地预测全局和局部的图像质量。然后，将 Tele-IQA 集成到一个名为 Tele-VQA 的视频模型中，进行远程呈现视频质量评估。

Tele-IQA

IQA模型可以看作是从图像域到真实分数集的映射函数。我们的Tele-IQA模型由三个函数组成：特征提取f 、池化 p 和回归 r。为了有效地提取补丁（patch）的质量预测，我们使用 RoIPool 对提取的特征图进行局部预测估计。RoIPool操作符（proI）用于从全局特征图中提取局部特征图：

Tele-VQA

Tele-VQA 包括四个连续的步骤：特征提取、特征融合、质量回归和质量融合。首先，从视频流中的补丁、帧、视频块和音频块中提取特征，捕获丰富的多模态信息。融合上述特征后，分别输入视觉特征回归模块和音频特征回归模块。每个回归模块都包含一个内部状态，以允许信息从一个 time step 传递到下一个 time step。最后，将预测的视觉和音频质量分数进行融合，形成最终的视听质量预测分数。

特征提取

Frame-level 特征提取

每一帧图像可以得到 960 个特征图，使用尺寸为 1×3 的自适应平均池化，然后flatten降维，最终产生 2880 维的特征向量。

Patch-level 特征提取

补丁级特征主要为了提取空间域的扭曲失真。为了提取补丁质量特征，我们将帧划分为一个2d×2d网格（d = 1,2,3,4），并在每个 RoI 区域上应用 RoI 池化：

然后，将不同尺度的质量图的预测质量分数连接成一个向量：

Clip-level 特征

我们修改了在 Kinetics 数据集上预训练的R（2+1）D 模型，去除最后一个池化层，作为提取时空特征的骨干。框架与补丁级特征一样，沿着空间维度应用1×3的自适应平均池化。flatten后产生 1536 维的特征向量。

Audio-level特征

特征融合

我们使用不同的路径来处理视觉和音频信息。对于视觉分支，我们将帧级、补丁级和视频块级的特性连接起来。最终得到4757维的视觉特征向量和1536维的音频特征向量。

质量回归

所得到的视觉和音频特征被输入两个不同的GRU-FCN模块以进行质量回归。从整个视频中提取的特征可以被视为一个多变量的时间序列。在线预测模型在每个时间步长上都接受一个单个样本点。在这里，把质量分数回归视为一个时间序列回归（TSR）问题，使用GRU-FCN来解决它，GRU-FCN包括两个主要的模块。门控循环单元（GRU）用于一步步地学习时间依赖关系，而全卷积网络（FCN）接受整个时间序列作为输入来进行特征提取。