如何为visionOS准备和提供视频内容

本文将介绍使用 HLS(HTTP Live Streaming) 为 visionOS 准备和交付视频内容的方法。我们将深入了解 HLS 媒体交付流程，并探索如何扩展交付管道以支持3D内容。此外，我们还将学习如何调整字幕制作工作流程，以适应3D内容，并介绍如何跨视频变体共享音轨并添加空间音频，提升视频观看体验。

题目：Deliver video content for spatial experiences
链接：https://developer.apple.com/videos/play/wwdc2023/10071/?time=72
作者：Chris，AVFoundation团队工程师
内容整理：胡玥麟

引言

在本次会议中，我们将探讨如何为空间体验准备和提供流媒体内容。我们将从回顾使用HTTP Live Streaming (HLS) 生产、准备和提供2D媒体的当前步骤开始，然后转向3D视频内容的支持及其步骤的更新。本次会议的目标是使得在此平台上提供2D视听内容的过程与在我们所有其他平台上的过程相同。

现有2D媒体的准备与交付

初始步骤包括媒体的编码、打包，以及准备好用于HLS交付的内容。目前，2D内容通过使用HTTP Live Streaming (HLS)，AVFoundation, Core Media等苹果媒体技术以及基于ISO的媒体文件格式（通常认为是MPEG-4）进行交付。

3D内容的支持与更新

3D内容的交付旨在建立在当前2D过程的基础上。HLS为分段的MP4时序元数据添加了新的支持，允许重要的适应性改变。

请注意Apple开发者网站上的HTTP Live Streaming页面，它提供了文档、工具、示例流、开发者论坛和其他资源的链接。我们的目标是向该平台提供 2D 视听内容应与我们所有其他平台相同。这是通过构建 Apple Media 技术（如 HTTP Live Streaming、AVFoundation、Core Media）和基于标准的格式（如基于 ISO 的媒体文件格式（通常被认为是 MPEG-4）来实现的。这是在支持新的空间体验范式的同时完成的。

深入支持视频回放的空间体验

对于视频，编码源视频，编辑至合适长度，并为您关心的比特率层进行色彩校正。您可以选择如何配置和使用视频编码器。

支持的播放能力包括最高4K分辨率的视频播放，90赫兹的显示刷新率，以及24帧每秒视频的特殊96赫兹模式。

支持标准和高动态范围。对于视频的相应音频，确定并生成所需的源音频流数量。该数字取决于您定位的一组口语以及该音频的角色。

音频的处理

确定并制作您需要的源音频流数量，这取决于您目标的语言集和音频的角色。

您可能希望提供空间音频以及一个回退的立体声音轨，以确保支持空间音频的设备获得出色体验，并在其他设备上可靠回放。

字幕的处理

字幕包括字幕和闭路字幕，覆盖不同的语言和角色。字幕覆盖了更广的含义，包括为视频提供文本信息的所有形式，不仅仅是对话的字幕翻译，还包括闭路字幕（closed captions）和为聋人及重听人士设计的字幕（SDH，即Subtitles for the Deaf and Hard of Hearing）。这些字幕和标题提供了对话、声音效果和其他相关音频提示的转录，不仅为了翻译语言，还为了提供给听力受损的观众或在无法听到音频的情况下观看视频的观众。

闭路字幕通常用于描述音频内容，包括对话、背景音乐、声音效果等，以便当观众无法听见音频时，也能理解发生了什么。而为聋人及重听人士设计的字幕（SDH）不仅包括语言的文字转写，还可能包括声音的描述，如音乐或声音效果的提示，以确保观众能够获得视频完整的体验。

字幕用于提供不同语言的口述文本翻译，闭路字幕在观众无法听到音频时提供不仅包括对话还包括声效和其他相关音频线索的转录。

与视频和音频编码类似，应该生产HLS支持的字幕文件和格式，最常见的是WebVTT。

媒体的打包

打包是将源媒体转换为各种类型的段以进行可靠交付的过程。这可以使用Apple提供的HLS工具完成，也可以使用内容提供商自己的生产工具、硬件或工作流程。

打包的目标是产生一系列媒体段、驱动其使用的媒体播放列表，以及将它们全部绑定在一起的多变量播放列表。目前最常使用的是两种 HLS 媒体段。碎片化的 MP4 媒体段是通过从已经编码的视频或音频电影文件开始并生成大量资源来生成的。这些资源称为媒体区段。客户端设备在播放期间检索的正是这些片段。字幕文件也需要分段。这是通过字幕分割工具来生成媒体片段来完成的。

对于目标段持续时间，源 WebVTT 文件可以拆分为任意数量的 WebVTT 文件。

2D媒体的生产与交付

2D媒体的生产和交付流程包括编码、打包，以及通过HTTP进行交付。这些内容可能直接服务于客户端，或者通过内容分发网络（CDN）作为源服务器使用。无论采用哪种方式，目标都是将资源传输到客户端设备上进行播放。

3D内容的制作与差异

随着技术的进步，3D视频为观众带来了全新的空间体验。3D视频通过为左眼和右眼提供略有差异的图像来创建深度感，这种技术称为立体视频。为了高效地提供立体视频帧，我们采用了多视图HEVC（MV-HEVC）技术，它能够在每个压缩帧中存储多个视图，从而支持Apple芯片，并允许在非3D感知的播放设备上解码。

字幕与3D视频

对于3D视频，制作字幕需要考虑立体视差和潜在的深度冲突。幸运的是，我们可以在2D和3D体验之间共享相同的2D字幕资产，而无需新的字幕格式。通过引入新的定时元数据，我们能够避免字幕与视频中的元素发生冲突，确保在播放过程中自动调整字幕的视差，从而提供舒适的观看体验。

音频与3D视频

在3D视频中使用音频时，可以沿用2D传输中相同的音频流。考虑到该平台支持头部跟踪，使用空间音频格式将提供更加沉浸式的体验。确保视频在2D和3D体验中按时匹配，并具有相同的编辑，这样就可以在两种体验之间共享相同的音频。

3D视频的打包与交付

更新的HLS工具简化了3D资产的打包与交付过程，使其与2D过程几乎相同。重要的是，生产系统需要根据新发布的规范来构建等效功能。此外，当构建或检查播放列表时，应注意包含指示视频为立体声的新标签“REQ-VIDEO-LAYOUT”。

视觉舒适度

在设计3D内容时，视觉舒适度是一个关键目标。应避免使用极端视差和高运动内容，以减少观看不适。屏幕尺寸也会影响观看体验，因此应根据观看环境调整屏幕距离以优化舒适度。

结论

通过利用HLS和MV-HEVC技术，我们可以为观众提供更加丰富和沉浸式的空间体验。通过在2D和3D制作中使用相同的音频和字幕资产，并通过引入新的定时元数据来优化视差处理，我们旨在尽可能轻松地将现有的2D内容转换为3D格式。

如何为visionOS准备和提供视频内容 | WWDC2023

引言

现有2D媒体的准备与交付

3D内容的支持与更新

深入支持视频回放的空间体验

音频的处理

字幕的处理

媒体的打包

2D媒体的生产与交付

3D内容的制作与差异

字幕与3D视频

音频与3D视频

3D视频的打包与交付

视觉舒适度

结论

发表回复

如何为visionOS准备和提供视频内容 | WWDC2023

引言

现有2D媒体的准备与交付

3D内容的支持与更新

深入支持视频回放的空间体验

音频的处理

字幕的处理

媒体的打包

2D媒体的生产与交付

3D内容的制作与差异

字幕与3D视频

音频与3D视频

3D视频的打包与交付

视觉舒适度

结论

相关推荐

什么是苹果visionOS？苹果最新的操作系统

PolySpatial技术：如何使用 Unity 在苹果 Vision Pro 上创建应用

发表回复