来源:ACM Multimedia Systems Conference (MMSys) 2022
主讲:Prof. Mohamed Hefeeda
内容整理:赵研<公众号:煤矿工厂>
主讲人 Mohamed 提出了一种针对云游戏平台的视频编码架构 (“DeepGame”),该模型利用 ROI 编码的思想,可在几乎不影响游戏主观体验的情况下,带来明显的码率节省。
云游戏的机遇与挑战
传统的游戏模式下,用户需要事先将游戏下载安装在本地,并在本地完成游戏的一系列运算和渲染,其运行速度、画面效果取决于本地的硬件配置,这带来昂贵的资金需求,且无法灵活支持用户在任意设备上进行游戏。为了克服这些问题,“云游戏”的概念应运而生。
作为一种以云计算和互联网为基础的游戏方式,云游戏将所有游戏运行在服务器端,并将渲染后的游戏画面和音频压缩传输给用户端。用户的游戏设备不需要任何高端处理器和显卡,只需具备基本的视频解压缩能力即可,因此该设备不局限于 PC,甚至可以是电视、移动设备等。这大大降低了用户游戏的资金需求,提高了游戏的灵活与自由性,且省去了游戏下载安装的繁琐过程。此外,由于游戏只需要在云端部署一次,游戏供应商的资金成本也明显降低。云服务厂商开拓了新的业务面,因此云游戏服务带来的是三赢局面。近年来云游戏的发展受到业内广泛关注,NVIDIA、Google、Sony、NETFLEX 等 IT 巨头纷纷提出了自己的解决方案。
云游戏基本框架如图 1,2 所示,用户通过 url 与云服务器建立连接,并通过控制流和数据流与其交互,其中控制流负责发送控制信号,即用户输入设备 (鼠标、键盘、摇杆等) 的一系列操作;云游戏据此进行游戏的运算解析,并将游戏场景渲染为视频音频的数据流,通过网络传输回用户终端。可以看出,整个云游戏过程涉及到大量流媒体数据的编解码与传输,且对实时性有很高的要求 (往往需要整体延时小于 100 ms)。而游戏视频往往具有高分辨率和高帧率,随之而来的是极高的码率和带宽需求,如表 1 所示,4K 游戏视频的码率达到了 20 GB/hr 之高,而用户的网络情况往往无法限制,因此设计高效的视频编码技术成为云游戏的技术难点和重点。
解决方案
如前文所述,云游戏部署具备如下挑战:
- 极高的实时性需求,要求总体延时低于 100 ms;
- 游戏场景的高分辨率和高帧率,使视频流往往具有很高码率,对网络带宽质量要求很高;
- 技术的增删要考虑到整个框架各模块的兼容性。
在此背景下,Mohamed 等人设想了如下一些解决方案,其中上采样和联合优化仍需进一步考虑,而 DeepGame 方案已经完成,在此重点讲述。
上采样
该方案利用了机器学习中的超分任务。如图 3 所示,为了降低传输码率,服务器端编码出较低分辨率的视频流,并通过网络传输给用户终端,用户方的解码器会部署一个超分网络,将收到的视频上采样,以此呈现较高质量的游戏场景。
该方法被广泛应用于许多视频场景,然而不能直接用于云游戏服务。这是因为超分网络的部署需要用户终端具备 GPU 资源,与云游戏的设计初衷不符,并且难以满足云游戏的严格实时要求。
联合优化游戏引擎与视频编码器
图 4 为云游戏的服务端结构,其中游戏引擎负责游戏的运算和渲染,合成游戏场景。这其中涉及到许多参数,分别影响画面的纹理细节、亮度、深度等。而这些参数的设计与生成视频的码率息息相关。同时,视频编码器的各个参数也会影响码率和视频质量。因此该方案利用强化学习对游戏引擎和视频编码器联合优化,以取得整体最优的参数设定。
ROI 编码:”DeepGame” 模型
Mohamed 等人提出了一种针对云游戏场景的视频编码架构,名为 “DeepGame”。该模型利用了 ROI 编码的思想,利用深度神经网络学习人眼感知特性 (Human Visual System, HVS),进而自适应选取帧内 ROI 区域及其时域相关性,并按照内容重要程度,将游戏视频中不同区域进行不同质量的编码,以此尽可能节约不必要的码字,降低码率。实验表明,相同质量下该方法可以达到最多 36% 的带宽节省,如下图所示。值得注意的是,DeepGame 可以实时对视频进行处理,并保证帧内和帧间不同质量内容的平滑过渡。此外,该方法并没有更改视频编码器和游戏引擎的源代码,也无需在用户端附加任何程序或硬件设备。
DeepGame 的整体框架如图 6 所示。游戏引擎渲染出视频画面后,会拷贝一份输入到 DeepGame 网络中,在此进行空域 ROI 区域分析和时域的 ROI 区域预测,结果用于编码器码率控制,指导其压缩参数 (QP) 的设置。
具体来说,该网络使用 YOLO 模型进行空域的目标检测和识别,得到带标注和位置信息的 ROI 区域信息,接着将带有 ROI 信息的多帧内容输入一个 2D 网络,该网络具有两个分支,一支输入 x 轴信息,另一支输入 y 轴信息,分别用于预测 ROI 区域水平和垂直方向的时域相关性,这部分网络使用了简单的 LSTM 结构。其输出为用户最可能关注的区域及对应置信度。
经上述步骤获得的单个视频帧中可能有多个 ROI 区域,,因此要进一步根据与用户的相关性来标记各个 ROI 区域的编码优先级。这也是游戏视频与普通视频的不同之处,以下图中的射击游戏为例,手枪的瞄准点占据了很小的区域,并且没有复杂的纹理信息,但是对用户的游戏体验非常重要。而其他树木、坦克等装饰虽然具有丰富的内容信息,但由于与用户的游戏动作不相关,因此会被赋予较低的编码优先级,不同优先级会用不同 QP 值进行编码。
在实际编码中,每个宏块会被赋予一个权重 ,以此来确定其编码 QP 值,ROI 区域会被赋予较高的权重。为了实现 ROI 区域和周围内容的平滑过渡,权重值会由 ROI 区域向四周随距离增加而逐渐降低,如图 9 所示,其中三个白色两块为 ROI 区域,颜色越深代表权重越低,QP 值越大。具体的权重公式如图 10 所示。
为了对模型效果进行训练和验证,Mohamed 等人收集了一系列数据,涉及 4 个游戏和 8 个用户,共有 98 个 session,时长 3:44 小时,并使用人眼跟踪设备来捕捉感兴趣区域。该模型基于一个名为 “GamingAnywhere” 的游戏平台搭建,其架构如图 12 所示。
Mohamed 等人采用主观质量评价来衡量模型质量,参与人员包括各个等级的游戏选手,分别体验了有/无 DeepGame 部署的云游戏,并在不知道哪个有 DeepGame 的情况下进行打分,分值区间为 1~5。结果如表 2 所示,可以看出 DeepGame 在各个码率下都展现了更好的质量效果。
此外,Mohamed 等人还分别以 PSNR 和 SSIM 为质量指标计算了 BD 性能,结果如表 3 所示,可以看出 DeepGame 模型大约可带来 20%-36% 的码率节省。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。