触摸未来，字节跳动提出6DoF直播创新方案

在通信技术的浪潮中，我们见证了媒体技术的一步步演进，每一步的跨越，都不仅仅是技术的升级，更是人类感知世界方式的一次飞跃。从一维时代电话的只闻其声不见其人，到二维时代视频的闻其声也见其人，体验的升维带来的是更丰富的信息交流和更深刻的情感共鸣，但同时也是对更高维度媒体的期盼，三维时代也由此而生。

然而，虽然有传统的点云、网格以及现在火热的隐式辐射场（NeRF）等三维表征，但想将三维应用在直播媒体层面却尤为困难，原因在于三维产出的数据量远大于传统直播链路，需要更高的带宽以及特定的三维显示设备来确保流畅的传输和播放。

面对这一挑战，火山引擎多媒体实验室近期提出了一项突破性技术——可实时交互的自由视角视频技术。这项技术通过链路革新，为三维直播媒体的发展贡献了重要力量。2024年7月27日至8月1日，在美国科罗拉多州丹佛市举办的SIGGRAPH 2024的沉浸体验展馆中，火山引擎多媒体实验室会展示这项最新的研究成果。

接下来，让我们跟随小编的步伐，揭开这项技术的面纱一探究竟：

首先火山引擎多媒体实验室使用稀疏的多同步相机阵列进行光场采集，而面对高精度光场重建难题，实验室提出了基于三维人体先验的神经辐射场技术。神经辐射场（NeRF）技术是一种先进的深度学习方法，能够从多视角二维图像中学习和重建三维场景的连续体积表示，并从任意视角渲染出逼真的三维视图。考虑到采集主体多以人物为主，可通过AI模型计算二维人体先验，再利用相机间位置关系投射到三维空间，从而形成了一个粗糙的人体可视外壳。通过训练阶段将辐射场中的光线限制在可视外壳内，可以得到更准确的几何表征，同时也抑制了人体外离群噪声的出现。更重要的是，光线遍历的范围大幅减少，极大的降低了辐射场生成的时间。

其次是更为关键的问题——如何进行三维内容的传输和呈现。对此，多媒体实验室联合视频架构直播团队，搭建了一条可实时交互的直播链路。这一链路不仅包括了高效的模型压缩编码传输，还实现了移动端侧的快速解码渲染。

直播链路流程图如下所示：

可以看到，人物模型会首先被转换为一系列多视角的视频帧，随后通过高效的聚合编码技术，这些帧以离散化的视频流形式被优化压缩，确保了与现行视频编码标准的完美对接。在移动设备端，实验室独立研发的空间计算模块能够实时捕捉用户的视角和位置变化，迅速转化为精确的切流指令，指导快速拉流模块获取并呈现相应的视频内容。特别值得一提的是，直播技术团队开发了快速拉流算法，可以实现了低于100毫秒的超低延时切流，保障了视角转换的无缝流畅，而空间计算技术除了加深用户与三维视频内容的互动，还承载了三维场景与视频内容的融合，极大地增强了沉浸感，为用户带来了前所未有的观看体验。

然而，三维只是人们获取真实感的起点，为了获得更高维度的沉浸感，实验室联合PICO硬件团队研发了一款力反馈模组，该模组主要通过双通道的低延迟数据传输，震动头部对应位置以模拟作用力的反馈。观看者的空间位置变化和裸手交互触碰，都可以触发力反馈机制，甚至是一个拳击手的拳风也可以设计触发，身临其境的感觉莫过如此。并且经过主观体验，小编发现该项反馈机制还能很大程度上缓解虚拟与现实感觉不匹配产生的VR眩晕问题！这是沉浸式体验的一大步！

此外，为进一步降低使用多同步相机阵列进行自由视角视频生产的采集成本，团队也提出了一种可交互的单目3D视频技术。对应单目输入的情况，通过基于编码器-解码器结构的网络高效估计2D视频的深度信息，并进一步重建为粗糙动态网格。然后，为了生成对应6DoF观看的正确视图，团队实现了一种改进的高性能的基于深度图像的新视角渲染算法。一方面，粗糙动态网格在渲染过程中被用作约束以加速渲染速度并减少失真；另一方面，使用图像修复算法消除由遮挡引起的空洞伪影。针对直播链路，团队提出了一种增强的全景/2D视频格式，其中编码了深度信息，使用高精度的非均匀量化方法进行深度压缩，以实现低延迟实时传输，带宽为消费级（15Mbps）。

火山引擎多媒体实验室的这一创新技术，无疑将为沉浸式视频技术领域带来新的变革，相信在不久的将来，随着技术的不断成熟和普及，将涌现出更多创新且沉浸的媒体表现形式，沉浸式媒体技术将不再局限于高端应用，而是成为人们日常生活的一部分。无论是在家中观看电影，还是在虚拟空间中与朋友互动，都能够享受到如同亲临其境的体验。火山引擎多媒体实验室正不断推进这一愿景，致力于将沉浸式体验的边界推向新的高度。我们邀请每一位用户，与我们一同期待并见证这一激动人心的时刻——一个全新的媒体时代的到来！

触摸未来，字节跳动提出6DoF直播创新方案

相关推荐

深入分析各行业直播方案与原理

发表回复