当前的按标题编码(per-title encoding)使用多种比特率和空间分辨率对同一视频内容进行编码,然后选出质量最高的方案。在不同带宽需求下进行以上操作,从而得到最佳的比特率阶梯(bitrate ladder)。相比于对所有视频内容都进行“一刀切”计算比特率阶梯的传统方案,按标题编码可以明显减少视频储存和传输耗费,并且提升体验质量(Quality of Experience, QoE)。但是,当前的按标题编码方案只考虑了空间分辨率,却没有考虑时间分辨率(帧率),并且随着高帧率设备的普及,这个问题愈发地浮现出其重要意义。本文中提出了一种使用“时-空”分辨率的按标题编码,将帧率这一元素也考虑进来。实验结果表明,相比于只考虑空间分辨率的按标题编码,本文的方案节省比特率的能力提高了一倍。
题目: PSTR: PER-TITLE ENCODING USING SPATIO-TEMPORAL RESOLUTIONS
作者: Hadi Amirpour, Christian Timmerer, et. al.
来源: ICME 2021
论文链接: https://ieeexplore.ieee.org/abstract/document/9428247
内容整理: 高博
简介
为了满足各种环境下对于视频流的需要,HAS 提供了一系列的“码率-分辨率”对,也就是我们说的码率阶梯。根据网络带宽情况的不同,最优的“码率-分辨率”对被提供给网络视频用户。传统构建码率阶梯的方法为所有视频都使用同一套“码率-分辨率”对,或者依据视频内容(动画、体育和电影等)来提供有限的“码率-分辨率”对。然而,由于视频内容的种类繁多而复杂,这种一刀切的方案使用起来往往不太合适。比如使用同一套“码率-分辨率”对方案时,低复杂度的视频往往会造成码率的浪费,而高复杂度的视频往往由于分配的码率不够而导致体验质量较差。
除了码率,空间分辨率也会对视频感知质量造成影响,通常在低码率情况下,低分辨率的视频感知质量要优于高分辨率,但当码率提升,高分辨率的视频感知质量要更优。低分辨率的方案不仅受到视频压缩的失真损耗,还要受到上采样造成的失真(原分辨率就没有这种影响)。之所以在低码率时,低分辨率的编码方案更好是因为它的编码像素总量少,每个像素分到的码率多,即使经过上采样的干扰,其质量也比高分辨率方案高。
图 1 中可以看到,Golf 和 Jockey 这两个视频分别以 1080p 和 540p 进行编码,可以看到在大约 1400kbps 时 Golf 的两个分辨率编码方案线相交,也就是说在码率低于这个点时,540p 编码优于 1080p;高于这个点,1080p 编码优于 540p。这种基于视频内容而表现出的差异现象促使研究人员对每个视频内容都进行码率阶梯优化,因此引出了按标题编码(per title),也就是说,对每个视频内容,码率阶梯基于码率和空间分辨率进行优化。
按标题编码能明显减少视频储存和传输耗费,并且提升体验质量。这是由于在给定的码率下,按标题编码会根据视频内容挑选出表现最好的空间分辨率编码方案。为了比较不同分辨率编码方案下的视频质量,解码后的视频需要上/下采样到原视频分辨率,然后计算其质量指标。
编码质量阶梯的选取要在适当的范围。质量过高,则人眼分辨不出视频质量提升;质量过低,则会出现编码伪影。在图 2 中,只在 PSNR 的 35dB~45dB 中进行选取,共选出四个不同高低质量。对于 r 种分辨率,b 种码率,按标题编码需要进行 r x b 编码并选取最优解,为了避免对所有“码率-分辨率”对都进行一次编码,开发出了一些提前对视频内容进行分析的方法。
上述的方法只基于码率和空间分辨率对码率阶梯进行优化。但是随着高帧率视频(HFR)的兴起,我们提出时间分辨率(帧率)也对码率阶梯的构成存在相似的影响。在本文中,提出了一种使用“时-空”分辨率的按标题编码(PSTR)。
总的来说,本文的主要贡献包括:
- 提出时间分辨率对码率阶梯构建的影响。
- 提出了一种使用“时-空”分辨率的按标题编码(PSTR)。
- 进行了较为全面的实验,在保持相同质量下极大减少了比特率。
视频编码中的时间分辨率
由于从前高帧率视频部署上的限制性,人们只在空间分辨率上不断做提升。但是由于更加先进数码相机的普及,时间分辨率和空间分辨率一同得到了提升。随着帧率的提升,时间伪影例如模糊、闪烁等将会减少,视觉清晰度得到提升。在低码率的限制条件下,人们更加倾向于减少空间分辨率而不管帧率,并且在很多高时间复杂度的视频上选用低帧率编码或者在低时间复杂度视频上选择高帧率编码。
在 5fps 到 30fps 的范围中,主观视觉质量将会随着帧率的上升而明显得到提升,然而,当帧率达到一定高度后,主观视觉质量会得到饱和。实验得出,当帧率超过 60fps 时,帧率的继续上升对人的主观视觉的影响不大。
总的来说,帧率对于视频压缩和视频感知质量有着很大的影响,因此,我们将同时使用时间分辨率和空间分辨率来对码率阶梯进行优化。
PSTR:使用“时-空”分辨率的按标题编码
在高码率带宽下,对每一帧和其每一个像素都有足够的比特率来编码。而在低码率带宽下,由于码率不足,往往将会对视频的分辨率进行下采样后再编码,然后再将解码后的视频上采样到原分辨率下,因此该方案不仅存在编码带来的失真,还引入了上采样带来的误差。接着再由按标题编码的方案,选出当前码率下的最优方案。
同样,对于时间分辨率(帧率)来说,高码率带宽下可以对原视频直接进行编码;而当带宽不足时,视频需要对帧率进行下采样(也就是抛弃一些帧)后编码,再将解码后的视频进行帧率上采样以达到原本的帧率。
图 3 中描绘出了不同帧率编码方案下的编码效率图,其中的两个视频按照空间分辨率 1080p 以及两种帧率 120fps 和 60fps 下进行编码。可以看到在较低码率情况下,低帧率编码方案更优,而较高码率情况下,高帧率编码方案更好。而且由于视频内容的不同,每个视频的高低帧率编码方案交叉点也不同。
由于帧率的影响,在 PSTR 中,视频感知质量,也就是体验质量(QoE),被如下的三元函数来定义:
其中 br,sr,fr 分别是码率,空间分辨率和帧率。而在传统的按标题编码中其则定义为:
为了构建 PSTR 的码率阶梯并且形成凸包,在 b 种码率情况(也就是质量情况)、r 种空间分辨率、f 种码率下分别进行编码。也就是将视频在时间和空间上进行采样到 r x f 下进行编码,如图 4 所示:
在每种质量环境(码率)下,都要进行上图所示的 r x f 种编码,也就是说一共有 b x r x f 种编码方案,对这些方案选取靠近凸包的点,从而构成码率阶梯。
可以明显看出,相比于传统的按标题编码,其计算复杂度由于编码方案多出了f 倍而大大增加,所以在未来将会开发出基于 PSTR 的预测方案以避免对所有编码情况都强制遍历。
本文中直接采取丢帧的方法来进行帧率下采样。为了评估编码方案的质量(也就是计算质量指标),和原始视频格式(其分辨率和帧率都是最高)不一样的编码方案,需要在空间和时间上都分别进行上采样以和原视频的时空分辨率进行匹配,一个计算质量指标的例子如图 5 所示,原始视频为(1080p,60fps),以(540p,30fps)的方案进行编码,其中直接使用复制帧的方法进行帧率上采样。
实验结果
数据集
在 BVI-HFR 和 UVG 中选取 9 个高帧率视频(1080p,120fps),其时间复杂度(TI)和空间复杂度(SI)如表 1 所示。选取每个视频的前 4 秒片段进行实验,每个视频都经过时间和空间下采样从而产生 9 种编码方案。
质量指标
为了拟合 HVS,引出了许多质量指标,其中一些将帧率这个选项纳入了考虑范围,基准客观指标表明,PSNR 和 VMAF 是相关度最高的客观指标。因此我们在评估视频质量时使用这两个指标。
码率阶梯优化
使用三种空间分辨率(1080p,540p,270p)、三种帧率(120fps,60fps,30fps)从而为每个质量情况(码率情况)构建 9 种编码方案。使用 HEVC 下的 HLS 比特率阶梯(45, 350, 550, 990, 1700, 2400, 3200, 4500, 5800 (单位:kbps)),在这 9 种质量阶梯下分别进行上述 9 种“分辨率-帧率”编码方案,也就是对每个视频序列一共进行 81 次编码。选取靠近凸包的“码率-分辨率-帧率”组合从而构建出合适的码率阶梯。
图 6 是测得的视频 Flowers 的 RD 曲线,其中(a)和(c)分别使用 PSNR 和 VMAF 测得,(b)和(d)分别是它们的凸包。
在表 1 中我们计算了相对于(1080p,120fps)原编码方案的 BD-rate(%),其中 state-of-the-art 是最新的只使用空间分辨率的按标题编码方案,可以看出,PSTR 相比于传统的按标题编码,其平均 BD-rate(%)无论在 PSNR 还是 VMAF 下都提升了将近一倍。而对于其中一些视频,PSTR 提升巨大,而对于其他的一些视频,PSTR 提升效果有限,这表明了这种提升很大程度依赖于视频内容,表 1 中的结果,对于时间复杂度(TI)较低的视频,PSTR 相较于传统按标题编码的比特率节省能力更高。
结论
本文中同时使用空间分辨率和时间分辨率来对码率阶梯进行优化。特别是对于当待处理视频的分辨率和帧率都比较高的时候,本文将其同时进行时间和空间分辨率上的下采样,从而在每个码率情况下找出“分辨率-帧率”编码方案的最优解。实验结果表明,相比于传统只考虑空间分辨率的按标题编码,PSTR 的码率节省能力得到了极大地提升。这表明在码率节省方面,时间分辨率和空间分辨率表现出相似的影响。
总体上,本文揭示了在较低码率下使用低分辨率和低帧率,在较高码率下使用高分辨率和高帧率,从而获得更好的视觉效果。本文的主要目标是研究在视频点播用例的 HTTP 自适应流媒体环境中,除了使用空间分辨率外,使用时间分辨率(即帧率)对视频的标题编码的影响。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。