MPEG 评估机器视频编码提案征集

在第 140 届 MPEG 会议上，MPEG 技术要求 (WG 2) 评估了对支持机器视觉任务高效视频编码的技术和解决方案提案征集 (CfP) 的响应。总共收到了 17 份对此 CfP 的回复，回复提供了各种技术，例如 (i) 基于学习的视频编解码器，(ii) 基于块的视频编解码器，(iii)结合 (i) 和 (ii) 的混合解决方案， (iv) 新颖的视频编码架构。一些提案使用基于兴趣区域的方法，其中帧的不同区域以不同的质量编码。

对 CfP 的响应报告说，就等效任务性能的比特率降低而言，对象跟踪的压缩效率提高了 57%，实例分割的压缩效率提高了 45%，对象检测的压缩效率提高了 39%。值得注意的是，WG 2 定义的所有要求都通过各种提案得到解决。

鉴于这次电话会议的成功，MPEG 将继续致力于机器视觉任务的视频压缩方法。这项工作将在 MPEG 视频编码 (WG 4) 的新标准化项目中继续进行。将根据对 CfP 的响应技术和一个或两个会议周期中第一轮核心实验的结果开发测试模型。同时，与 ITU-T SG 16 (WG 5) 联合视频团队将研究基于现有 MPEG 视频压缩标准的机器视觉任务的编码器优化方法。

WG 2 感谢所有对此 CfP 提交回复的支持者。MPEG 将继续收集和征求反馈意见，以在即将举行的会议中改进机器视频编码的测试模型。

MPEG 评估机器特征编码的视频编码证据征集

在第 140届MPEG 会议上，MPEG 技术要求 (WG 2) 评估了对支持机器视觉任务高效特征编码的技术和解决方案的证据征集 (CfE) 的响应。总共收到了对此 CfE 的八个回复，其中六个回复根据通话中描述的条件被认为是有效的：

对于测试的视频数据集，据报道，与视频锚点相比，压缩效率提高了 87%，与特征锚点相比，压缩效率提高了 90% 以上。
对于测试的图像数据集，与图像和特征锚点相比，压缩效率可以提高 90% 以上。

基于 CfE 的成功结果，第 2 工作组将继续致力于发布提案征集 (CfP)。WG 2 感谢所有对此 CfE 提交回复的支持者。

MPEG 达到触觉编码的第一个里程碑

在第 140届MPEG 会议，MPEG 3D 图形和触觉编码 (WG 7) 通过将文本提升为委员会草案 (CD) 状态，达到了触觉编码 (ISO/IEC CD 23090-31) 标准批准过程中的第一个里程碑。CD 包含 MPEG-I 触觉第一阶段编解码器规范，其中包括基于触觉参数表示的 JSON 描述格式和处理时间触觉信号的感知优化小波压缩格式。这些格式允许 MPEG-I Haptics Phase 1 编解码器用于触觉的创建、编辑和交换，以及触觉的高效编码、分发、流式传输和存储。JSON 格式与当前的 glTF 规范兼容，允许未来扩展空间和交互式触觉。为 CD 选择的技术包括描述性的、人类可读的表示和高效的心理物理压缩方案，以及对振动触觉和动觉设备的支持。它们对提案征集后保留的一组初始技术（称为 RM0）进行了一些改进和增强，这些技术已通过严格的客观和主观感知测试，旨在评估各种比特率下的触觉质量。

MPEG 完成了沉浸式媒体视频解码接口的新标准

与 2D 媒体相比，沉浸式媒体最显着的特征之一是只有一小部分内容呈现给用户。这样的部分是在消费时交互选择的。例如，用户可能不会同时看到同一个点云对象的正面和背面。因此，出于效率原因并根据用户的观点，仅需要传送、解码和呈现正面或背面。同样，可能不需要访问观察者后面的部分场景。

在第 140届MPEG 会议上，MPEG 系统 (WG 3) 通过将文本提升为国际标准最终草案 (FDIS)，达到了沉浸式媒体视频解码接口 (VDI) 标准 (ISO/IEC 23090-13) 的最终里程碑。该标准定义了各种视频编码标准的基本框架和该框架的具体实现，包括对实践中广泛使用的应用程序编程接口（API）标准的支持，例如Khronos的Vulkan。

VDI 标准允许动态调整视频比特流以提供解码输出图像，使得实际视频解码器的数量可以小于要解码的基本视频流的数量。在其他情况下，视频解码器的虚拟实例可以与需要解码的基本流部分相关联。使用此标准，通过考虑要呈现给用户的特定解码视频区域，而不是仅考虑使用中的视频基本流的数量，可以进一步优化运行多个虚拟视频解码器实例的平台的资源需求。第一版 VDI 标准包括对以下视频编码标准的支持：高效视频编码 (HEVC)、通用视频编码 (VVC) 和基本视频编码 (EVC)。

MPEG 完成了神经网络压缩一致性和参考软件的开发

在第 140届MPEG 会议上，MPEG 视频编码 (WG 4) 通过将文本提升为国际标准最终草案 (FDIS)，达到了神经网络压缩的一致性和参考软件 (ISO/IEC 15938-18) 的最终里程碑。它补充了最近发布的第一版多媒体内容描述和分析神经网络压缩标准 (ISO/IEC 15938-17)。

神经网络编码标准被设计为编码技术的工具箱。该规范包含三个压缩步骤的不同方法，即参数减少（例如，修剪、稀疏化和矩阵分解）、参数变换（例如，量化）和熵编码方法，这些方法可以组合成编码流水线，结合一种或多种（在减少的情况下）每个步骤的方法。参考软件是用 Python 编写的，并为编码管道中的这三个步骤和实现所有支持方法的组件提供了定义接口的框架。此外，还提供了用于测试是否符合神经网络编码标准的比特流。

MPEG 白皮书

在第 140届MPEG 会议上，MPEG Liaison and Communication (AG 3) 批准了以下两份 MPEG 白皮书。

MPEG-H 3D 音频

MPEG-H 3D 音频标准指定了一个通用的音频编码和渲染环境，旨在有效地表示高质量空间或沉浸式音频内容以供存储和传输。由于沉浸式音频没有普遍接受的“一刀切”格式，因此它支持 (i) 常见的扬声器设置，包括单声道、立体声、环绕声和 3D 音频（即，设置包括高于耳朵水平和可能低于耳朵水平的扬声器耳朵水平）和 (ii) 在广泛的再现条件下呈现（即，各种扬声器设置或耳机，可能在聆听环境中有背景噪音）。

MPEG-I 场景描述

MPEG 一直致力于在 MPEG 沉浸式媒体编码项目 (MPEG-I) 的保护下研究沉浸式媒体的技术和标准。MPEG Systems (WG 3) 认识到需要可互操作和可分发的场景描述解决方案，这是促进沉浸式媒体服务的出现并在消费者市场上交付其沉浸式内容的关键要素。作为 MPEG-I 项目的一部分，第 3 工作组于 2017 年开始研究沉浸式媒体的架构和场景描述格式的可能解决方案，最终制定了 ISO/IEC 23090-14 标准。

本白皮书介绍了 ISO/IEC 23090-14，它为 Khronos glTF1（也可用作 ISO/IEC 12113）提供了一组以“MPEG”为前缀的扩展，以及对 MPEG 定义的 ISO 基本媒体文件格式的扩展，也称为 ISO/IEC 14496-12 ISOBMFF。这些扩展支持将定时沉浸式媒体描述和交付到基于 glTF 的沉浸式场景中。此外，该标准还定义了一个架构和一个应用程序编程接口 (API)，允许应用程序将对沉浸式定时媒体内容的访问与该媒体的呈现分开。白皮书最后对该标准进行了展望和未来计划。