斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

近日,CVPR NTIRE 2024 Challenges[1] 各赛道相继公布比赛结果,小红书音视频架构团队图像算法组在两项重要竞赛中斩获冠、亚军

其中,他们主导参与 Restore Any Image Model in the Wild Challenge[2](简称 RAIM),在该赛事上获得第二名(客观指标第一,主观评价第二,综合排名第二)。

在 Short-form UGC Video Quality Assessment Challenge[3](简称 S-UGC VQA)赛事中,他们与上海交通大学翟广涛教授课题组联合参与,一举夺魁。

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

NTIRE(New Trends in Image Restoration and Enhancement),作为近年来在图像处理和底层视觉领域最具影响力的全球性研讨会之一,由苏黎世联邦理工学院计算机视觉实验室主办。NTIRE 通常涵盖图像修复、增强、质量评价等多个底层视觉竞赛,旨在鼓励研究人员探索计算机视觉中图像恢复和增强的新技术和新方法,吸引全球众多顶尖高校和知名公司的积极参与。

随着小红书视频业务发展,提升短视频和直播的基础体验质量变得尤为关键。在这一过程中,视频图像复原、增强以及质量评价等图像处理和底层视觉算法发挥了重要作用。小红书音视频架构团队图像算法组不仅承担了这些关键技术的研发任务,并在近两年上线落地了一系列算法和方案,取得了不错的业务收益。

本文将带您回顾这些激动人心的竞赛,包括赛事介绍、方案简介和竞赛结果。随后,结合短视频和直播场景下的业务背景、评价方法和技术方案特点,作者将详细阐述图像算法如何在小红书的视频处理业务中得到落地应用,并探讨它们如何为业务带来实际收益。

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

1.1 赛事介绍

图像复原一直以来都是底层视觉研究的热点问题,旨在提高包含各种形式退化的图像的主客观视觉质量。近年来,底层视觉领域的研究方向已经开始朝向“工业应用”偏移,但从学术研究到工业应用仍旧存在着差距。例如,数字相机的图像信号处理系统始终面临着复杂的混合退化问题,而学术研究中的大多数方法都是基于模拟和有限的退化设计和评估的,如何设计和训练一个可以推广到实际应用的模型是一个具有挑战性但非常有价值的问题 [4]。

OPPO 研究院 Y-Lab 和香港理工大学的视觉计算实验室联合主办 RAIM 竞赛。组织者将基于工业界在影像领域的经验积累,提供真实测试环境中收集的数据供参赛者研究和测试他们的算法模型,并提供来自工业界经验丰富的从业者的高质量反馈,将工业界真实的场景、效果需求展示给研究者。

竞赛包括两个任务,任务一是对包含 ground truth 的测试图进行复原增强,组织者将基于量化指标对提交的参赛结果进行评分排序。任务二将向排行榜前十名的选手额外发布 50 组无参考终评数据,选手提交结果后,组织者将邀请工业界资深从业者、专家进行主观评测打分。

1.2 方案简介

近年来,扩散模型在图像复原领域取得了显著成果,其中使用大规模数据预训练的生成扩散模型因其强大的生成式先验进一步展现了在图像复原任务上的潜力。

本次竞赛中,我们采用了当下最先进的生成式复原模型——SUPIR,来提高图像复原的主观视觉质量。SUPIR 基于大规模数据预训练,其泛化能力得益于其强大的生成先验知识。然而,基于扩散模型的方法在图像复原的保真度上存在挑战,加之训练测试数据分布差异较大,我们发现 SUPIR 在部分测试数据中会存在明显失真现象。

考虑到有限的竞赛时间和训练资源,以及相比手机厂商我们在构建测试数据场景下相似分布的训练集上没有优势,我们没有选择基于 SUPIR 做微调。而是进一步利用 DeSRA 方法,通过检测 SUPIR 模型输出效果不佳(即保真度差)的区域,再设计一个 Fusion 模型优化上述区域,从而实现整体复原效果提升。整体方案如图 1.1 所示:

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
图1.1 整体框架

如前所述,DeSRA 模型用于找出 SUPIR 结果的潜在失真区域,输出一个二分类 mask。准确的失真区域检测具有较大的难度,并涉及非常繁琐的人工标注以及重训练。

在竞赛中,我们仅预期 DeSRA 可以检测出 SUPIR 可能失真的语义类别和区域,从而降低检测精确率和召回率难以同时满足的挑战。考虑到拍照场景对保真度具有较高的要求和主观评测倾向,我们的策略是提升 DeSRA 模块失真检测的召回率,允许精确率有所下降。

DeSRA 利用结构相似度质量评价和语义分割技术生成二分类 mask。为进一步提升检测准确率,DeSRA 模型的参考输入是一个 GAN-based 的模型输出结果,该 GAN-based 的模型是我们在任务一中采用的模型,达到了较好的主观视觉效果且保真度高(排名第一)。

Fusion 模型基于原图、SUPIR 输出图以及二分类 mask 图执行微调训练,如图 1.2 所示。在推理阶段,mask 的黑色区域保留了 SUPIR 的结果,而白色区域基于原图进行重新生成,以保证最终效果的保真度。值得注意的是,白色区域的重生成也会受到黑色区域 SUPIR 结果的引导和约束,确保整体图像的一致性和质量。

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
图1.2 Fusion 架构

1.3 竞赛结果

RAIM 竞赛吸引 200+ 支队伍注册参赛,其中任务一共有 400+ 次提交。任务一的量化指标是多个计算指标分数的加权融合,其计算公式如下:

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

其中 PSNR、SSIM、LPIPS、DISTS 是全参考图像质量评价指标,NIQE 是无参考图像质量评价指标。在任务一中,我们参赛方案的提交结果排名第一,量化指标分数为 81.96 分。

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
表1.1 参赛队伍(小红书参赛队伍为 Xhs-IAG)和排名,其中 Phase2 是任务一,Phase3 是任务二

任务二是对额外提供的 50 组测试集结果进行主观质量打分,评测标准考虑了多个画质维度,包括较好和自然的纹理细节、噪声 (尤其是彩噪) 需要去除同时避免平坦区过度平滑、各种 artifacts 需要尽量减少、高保真度等。

任务二中我们的参赛结果排名第二,整体在纹理、细节、边缘、保真度方面具有较好的主观质量,而在文字复原和增强上有待提升,如图 1.3 所示。

主观打分排名第一的方案来自小米的 MiAlgo 队,他们未采用扩散模型,而是提出一个基于 GAN 训练优化的 Transformer 和 CNN 混合模型,训练数据上他们使用了一个包含各种手机典型拍照场景的内部训练集,包含大概 2 万张训练数据对。

我们的方案基于开源数据集训练,其数据分布可能与组织者提供的测试场景和数据存在部分偏差,未来算法效果的重要提升点之一是构建具有更多真实场景和多种真实退化问题的预训练集。

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
图 1.3 任务二部分结果展示 [2],从左到右:输入图、MiAlgo 队结果、Xhs-IAG 队结果、SoElegant 队结果、IIP_IR 对结果
斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

2.1 赛事介绍

得益于较低的创作成本、丰富的创作模式、以及短而精的创作内容,短视频已经成为一种重要的信息载体和媒体形式,极大丰富了人们的生活。然而,相较于专业制作的 PGC 视频,短视频多样的创作环境和复杂的处理链路使得短视频质量差异较大。因此,如何有效衡量短视频的主观质量成为影响短视频平台发展的一个重要挑战。

中国科学技术大学智能媒体计算实验室联合快手音视频技术部联合主办 S-UGC VQA 竞赛。本次比赛采用由快手授权采集和提供的大型短视频质量评价数据集,并联合中国科学技术大学进行数据集标注和标准化。该数据集包含风景、人群、食物、肖像等 9 个内容场景,每个内容比例按照快手短视频平台在线统计量制定,共计 4200 个短视频,其中训练集、验证集、测试集分别占 70%、10%、20%。在模型开发阶段,训练集和验证集被提供,参赛者可借助训练集训练模型。在测试阶段,竞赛组织方将会公布测试集,最终比赛成绩由组织方以测试集上性能结果进行排名 [5]。

2.2 方案简介

近年来,数据驱动的 VQA(Video Quality Accessment)在无参考视频质量评价领域展现了优越的性能。这一进步得益于高级神经网络的发展,以及大规模人工标注的质量评价数据集的建立。

然而,主流开源数据集通常比较陈旧(来自于多年前的设备采集或者视频网站),且包含的视频质量退化种类和内容场景丰富度与当前流行的社交媒体视频数据存在较大偏差。

由这些数据集训练的 VQA 模型尽管具有较高的客观指标,当被应用于处理当前流行的社交媒体平台中丰富多样的 UGC 视频数据时(如特效内容、图文混合内容、经过复杂视频链路处理内容),其准确率和泛化能力有待进一步提升。

解决上述问题的有效方法之一是进一步提升 VQA 模型的场景识别和理解能力以及质量特征的提取能力。本次竞赛中,我们采用 SimpleVQA 作为基线模型,其在多个研究工作中展现了较好的拓展能力。在 SimpleVQA 基础上,多个先进的大规模预训练模型被用于辅助特征提取,从而增强最终质量评价的泛化能力和鲁棒性。

图 2.1 展示了算法整体框架 [6],主要包含空域特征提取和时域特征提取两个分支,其中基线模型 SimpleVQA 采用 Swin Transformer-B 和 SlowFast 分别提取空域特征和时域运动特征,LIQE 和 Q-Align 被用于增强空域特征提取,FAST-VQA 被用于增强时域特征提取。所有提取的特征被合并在一起回归得到最终视频质量评价分数。

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
图 2.1 算法整体框架[6]

LIQE 是一个基于 CLIP 的图像质量评价图文模型,其计算一个图片与一段文字的相似度,文字描述具有固定的结构,即“a photo of a(n) {s} with {d} artifacts, which is of {c} quality”,其中 {s}、{d}、{c} 分别代表 9 个场景类别、11 种 artifact 类别和 5 个质量等级。引入 LIQE 预训练特征使得算法模型在内容场景与 artifact 分类与推断上得到加强。

Q-Align 是一个用于质量评价任务的多模态模型,其在多个大规模图片/视频质量评价数据集上进行预训练,我们提取 Q-Align 最后一个隐层的特征图进一步增强空域特征。

FAST-VQA 是一个高效的端到端视频质量评价模型。通过利用视频在时域上的冗余性,FAST-VQA 开发基于 fragment 的采样方法在有限计算复杂度下高效提取视频时域质量特征,其 backbone 基于 Video Swin Transformer 模型。我们利用 FAST-VQA 增强算法模型在时域维度上的特征提取能力。

2.3 竞赛结果

竞赛测试集 groundtruth 采用两种视频标注方法,一种是常规的单视频标注,标注分数范围是 1~5 分,标注颗粒度是 0.5 分,另一种是视频对质量排序标注。

组织者依据 4 个指标评价参赛者提交结果,即 SROCC、PLCC、Rank1、Rank2,其中 SROCC 和 PLCC 评价算法的相关性和保序性,而 Rank1 和 Rank2 用于更细粒度的质量评价。Rank1 对应的测试集视频对是同源内容但具有不同的降质程度,Rank2 对应的测试集视频对是不同源视频内容。

最终分数基于上述指标的加权平均,公式如下:

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

本次 S-UGC VQA 竞赛共有 56 个队参赛,包含来自字节跳动和微信等短视频内容平台的队伍。我们和上海交通大学翟广涛教授课题组联合参赛队伍获得第一名。

我们的方案在客观指标 PLCC/SROCC 都超过了 0.9,且相比 baseline 的 SimpleVQA 或 FastVQA 提升显著,也证明了我们采用 LIQE、Q-Align 和 FastVQA 的特征提取和融合,对于增强 SimpleVQA 的泛化能力和鲁棒性起到了预期效果和关键作用。另外值得注意的是,排名靠前的方案普遍使用了预训练模型、ensemble 方案以及额外训练数据。           

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
表2.1 参赛队伍和排名
斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

竞赛通常是组织者给出背景目标和评价方法,参赛者提出最优解决方案。在实际业务落地时,制定合理的技术优化目标和评价方法非常重要,且往往并不独立于解决方案,而是受到场景特点、技术可行性和资源投入等多种因素的影响。

在短视频和直播场景下,质量和体验问题虽然在消费终端表现得最为明显,但优化目标不能仅限于消费终端。这是因为视频在达到用户之前,会经历一系列复杂的处理和传输,包括内容生产、编辑发布、云端处理、推荐分发以及播放处理等环节。

因此,为了提升终端用户的看播质量和体验,需要分析和追踪整个视频链路的质量问题,以整个链路的全局视角去审视和归因问题根源,从而提出最优解决方案。在评价方法上,除了离线测试,如何评价图像算法在亿级消费终端的实际效果是一个关键问题。

  • 如何评价图像算法在大规模数据上的泛化性并自动化监测线上画质问题?我们自研了一个无参考视频质量评价指标 RedVQA[7],目前已经应用于点直播大盘监控、画质优化与推荐优化。
  • 如何评价图像算法在消费终端的实际体验和影响?我们采用 AB 实验的方式,观测实验组 QoE(Quality of Experience)和 QoS(Quality of Service)指标是否优化或者劣化。核心 QoE 指标包括人均播放时长、播放次数等,核心 QoS 指标包括卡顿率、秒开率等。
  • 如何评价图像算法部署带来的开销或成本?部署涉及的成本项包括带宽成本、计算成本和存储成本。一般来说,用户消费达到一定规模后,带宽成本远大于计算成本和存储成本。视频传输码率越大,带宽成本越大。

基于上述短视频和直播业务场景特点和评价方法,图像处理或底层视觉算法落地方案通常具有以下特点:

  • 从学术到生产,从小规模测试集到大规模真实用户数据,不仅需要关注算法效果上限和整体表现,还需要关注算法下限和 badcase,前者能够带来大盘收益,后者避免用户投诉。提升算法在真实场景的泛化能力仍然是非常重要的课题,构建丰富场景和真实退化的数据集是关键之一。
  • 效果之外,算法引入的带宽和计算成本是最大的约束项,前者关注对编码效率的影响,后者关注计算复杂度。综合来看,一个计算轻量、效果好、对编码效率友好的算法是我们所希望的。
  • 综合泛化能力、成本约束以及基于 QoE/QoS 指标的真实体验考量,落地方案通常是前沿底层视觉算法和传统图像处理算法的结合体。在强计算资源约束下,一个精心设计有理论指导的传统图像处理算法通常可以实现更好的泛化能力和计算效率。

下面我们简述三个应用和落地案例,其分别优化视频链路的不同节点,即优化生产端的直播推流降噪、在云端部署的智能转码以及基于播放端集成的端云结合超分。为了解更详细的业务背景和技术信息,读者可参考文献[7,8]。

3.1 直播推流降噪

当在夜晚或光线不足环境下进行拍摄或开播时,camera 输出视频信噪比低,视频带有可明显感知的噪声。
直播推流端处理链路一般会包含美颜和画质增强处理,这些算法设计通常假设视频源具有正常画质,而在噪声场景下,经过这些算法处理的视频画质通常会显著劣化,表现为噪声被显著放大导致主观视觉质量下降,有噪下增强清晰度导致画面不自然等。

另一方面,经过算法处理的视频最终会经过编码推流到云端,而对于编码来说,较大的噪声使得编码效率变低,需要消耗更高的码率,且视频噪声经过压缩后形态变差(由较均匀噪声变为非均匀噪声),出现较多 artifact,主观质量急剧下降。

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
图 3.1 直播推流降噪整体框架图

一种常见的解决方案是在云端做视频增强,然而由于视频经过端侧增强、美颜、编码后画质已经急剧下降,云端增强难以获得最佳处理效果。

更好的解决方案是在推流端 camera 输出后马上进行视频降噪,使得基础画质得到提升,进而改善增强或美颜后效果,并提升推流编码效率。直播推流降噪整体框架如图 3.1 所示,方案简述如下:

  • 视频降噪应该集成在 camera 后还是美颜后?一种观点认为应该集成到美颜后,以缓解美颜显著放大噪声的问题。我们选择集成在 camera 后,主要考虑是:

a). 视频降噪的目标是改善视频源画质,为后续所有处理提供一个更好的基础画质,因此应该作为基础画质提升模块去迭代,与美颜解耦;
b). 视频降噪需要根据噪声程度自动决策是否开启,而经过增强美颜后的噪声形态和独立性变差,使得噪声估计准确率下降;
c). 对于美颜算法放大噪声或产生噪声的情况,一方面需要优化美颜算法对于噪声的敏感性,另一方面可以根据美颜处理产生或放大噪声的原理更有针对性的设计特定算法解决这个问题。

  • 鉴于开播端(如手机)计算资源有限,且美颜等效果处理通常占据不小的计算资源,为了保障开播流畅度并提升算法机型覆盖率,视频降噪和噪声估计算法需要保持在较低的算法复杂度和计算性能。我们当前基于传统算法设计这两个模块,视频降噪是一个基于光流估计的多帧时空自适应滤波算法,噪声估计是一个基于小波变换和特征值分解的混合框架多帧算法。
  • 受限于算法复杂度,端侧噪声估计无法同时兼顾精确率和召回率,较低的精确率将频繁的开启降噪,占据计算资源、影响开播体验,而较低的召回率使得推流视频存在一定比例的噪声问题。云端质量评估算法被用于监控推流视频画质问题。具体来说,我们设计了云端噪声估计和图片质量评估算法分别对推流视频噪声问题和端侧节点质量异常问题进行监控,异常结果反馈推流端进行策略和模块参数调整。

上述方案经离线评测显示,因美颜放大噪声导致的推流画质显著劣化问题得到了控制。此外,为了验证线上实际效果和大盘收益,我们进行了 AB 实验。结果显示在噪声场景下,经过降噪处理的推流视频画质 RedVQA 质量分更高且推流码率更低,即以更低的成本实现了更高的画质。

3.2 云端智能转码

转码是在云端对用户发布的视频进行解码后再编码的过程。由于云端可以部署压缩效率更高的编码器,转码后视频可以在画质和码率上达到更好的平衡。

转码的智能化是在解码后对视频内容进行分析和处理,使得转码可以根据视频内容和质量进行针对性处理,从而实现更高的质量和更低的码率。智能化的内涵非常丰富,有在实践中的,还有待挖掘的,一些典型的技术内涵如下:

  • 编码考虑的是用最少的码率最大程度的代表原视频,编码后视频质量的上限是原视频。UGC 视频的特点是内容多样且画质差异大,如果能用画质修复及增强算法提升原视频的质量,那么转码视频质量也能进一步提升。例如一个带噪视频经过去噪算法后再编码,相同码率下主观画质得到显著提升。
  • 当前主流的编码框架还比较传统,主要基于图像统计特性以及像素级预测变换,其固定的编码参数以及码控算法对不同场景和内容的视频来说显然不是最优的,因此通过对视频场景分类以及增加内容和语义理解,可以使得编码效果和效率得到进一步提升。
  • 从主观感受来讲,对于感兴趣区域做画质增强和提升编码质量可以更有效的提升实际观看体验,而对于非感兴趣区域降低画质处理和编码质量,不太影响观看体验但有助于节省码率。

这些视频分析、处理以及内容自适应编码技术整体形成了智能转码方案,涉及内容理解、质量分析、图像处理、编码技术的融合。需要说明的是,这里的“融合”不是模块的堆砌,需要结合带宽成本和计算成本综合评价“融合”后的转码效果及收益。例如单纯做画质增强,可能只关心画质是否变好,结果通常是视频码率急剧增加。

在智能转码设计中,我们要求画质有提升且码率有降低。在 R265 自研编码器基础上,我们利用人眼视觉感知的质量评估、画质增强以及码率质量预测模型构建智能转码 1.0 方案,如图 3.2 所示。

  • 自适应锐化:传统锐化在增强画面主观清晰度的同时,无差别放大画面全部区域甚至噪声,使得编码效率下降、码率急剧上升。此外,传统锐化容易出现黑白边、边缘锯齿等伪像,副作用较大。自适应锐化 1.0 采用自适应滤波、自适应增益以及过锐抑制等技术,解决上述传统锐化问题。自适应锐化 2.0 进一步改善复杂细小纹理清晰度不佳的问题。
  • 去压缩损失/去模糊:自适应锐化可以较好的提升整体清晰度,然而由于不具备学习能力,在面向轻微模糊的 UGC 视频时,画质提升幅度有限。此外,UGC 视频通常包含压缩损失或者画面毛刺,是编码效率降低的来源之一。当去除这些压缩损失和画面毛刺后,不但画面清晰度得到进一步提升,编码码率也会进一步降低,从而实现画质和成本双收益。基于深度学习的去模糊/去压缩损失算法实现了上述目标。
  • 码率质量预测模型:当使用传统固定 crf 参数对线上视频进行压缩时,转码视频编码质量损失具有较大差异,用户看播视频质量无法得到保障。此外,基于质量成本 tradeoff,同一个视频通常需要构建多个不同质量和码率的档位,要求我们能够精确的根据质量或码率预设目标进行转码,码率质量预测模型用于实现上述目标。当前我们基于 vmaf 指标预测编码质量,后续我们将以 RedVQA 指标预测视频整体质量。
斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
图 3.2 云端智能转码 1.0 框架

智能转码框架构建和上线并不是一蹴而就的,结合业务需求、目标和项目规划,我们分成三个阶段逐渐完善整体框架,且每个阶段经过算法的精心设计和打磨,均取得了不错的业务收益,总结如下表所示:

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

3.3 端云结合超分

对于亿级视频内容消费平台来说,视频下发带宽成本是占比最大的成本项。一般来说,下发视频的码率/分辨率越大,画质越好但消耗更多的带宽,反之则画质较差但节省带宽。

如何兼顾视频消费质量和带宽成本是视频处理业务的一项重要课题。另一方面,当用户处于弱网环境时,为了保障播放流畅度,下发视频通常需要降级到更低的分辨率或码率档位,视频画质无法得到有效保障。

无论是主动下发还是被动下发低分辨率和低码率视频,端侧超分可以有效提升最终呈现在消费终端的画面质量。对于视频内容平台来说,可以进一步结合云端处理能力和系统策略设计超分下发档位,从而进一步提升端侧超分后视频质量,在节省带宽的同时最大化保障用户体验质量。图 3.3 展示了端云结合超分框架。方案简述如下:

  • 当设计超分算法时,首先要保证的是开启超分后的 QoS 关键技术指标不会显著劣化;而为了达到较高的覆盖率,算法性能需要满足在中低端机上流畅运行;此外,算法部署引入的功耗和发热也可能会影响用户体验和在线时长。这些目标或约束要求我们在有限的算法复杂度下尽可能的提升超分算法效果。在极轻量算法设计中,有图像理论指导的 low level 图像算法相比深度学习更高效,我们选择基于 patch 模式分类和自适应滤波的 two-stage 机器学习算法。
  • 我们在云端为端侧超分定制了一个超分档位,其利用云端智能转码画质处理能力优化超分档位画质,通过提升输入视频质量补偿端侧超分最终呈现质量;同时利用云端智能转码的码率质量预测模型控制超分档位下发码率和编码质量,从而精准平衡体验质量和带宽成本。此外,采用多种策略来精细化控制超分档位消费体验。首先,通过带宽高峰期预测控制超分档位下发的时间段,只在带宽成本敏感时段进行下发;其次,通过质量&码率收益评估动态精细地量化出同源视频不同档位的码率和质量,为精细化档位选择和质量成本 tradeoff 决策提供支撑。
斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?
图3.3 端云结合超分框架

离线测试显示,端侧超分达到了较好的效果和性能平衡。性能上,对于 60fps 540P 输入视频,开关超分帧率基本持平,且没有卡顿和发热问题;效果上,540P 定制档位超分后整体基本对齐 720P 档位视频质量。

在去年的降本增效目标中,我们也做了 AB 实验验证实际体验和上线效果。实验在带宽高峰期下发超分档位,在 iPhone 8 及以上机型开启超分。实验结果 QoE 数据整体波动,说明超分整体效果没有大的问题,QoS 数据在卡顿率、启播失败率等技术指标上有显著优化,而对比 720P 档位平均节省 33% 下发码率,带宽节省显著。

今年在兼顾带宽成本的基础上,我们对画质体验有更高的要求,需要在大盘关键指标无显著负向基础上,进一步减少超分档位 badcase。为了实现上述目标,码率质量预测模型和质量&码率收益评估模块将提供精细的超分档位生产和下发调控。此外在策略上,人群画质敏感度模型也将被结合用于保障画质敏感用户体验。

作者简介:

剑寒 小红书音视频架构图像算法技术负责人。本硕博毕业于西安交大,博士联合培养于英国帝国理工学院,研究方向包括底层视觉算法、异构计算优化等。曾作为主力参与数字电视产业级研发项目(国家科技重大专项)和硬件产品图像视频算法项目,主导多项拍照/短视频/直播场景画质算法研发和系统构建,具有丰富的算法和系统研发经历以及多场景落地实践。

参考文献

[1]. CVPR NTIRE 2024 Challenges, https://clai.net/ntire/2024/.

[2]. NTIRE 2024 Restore Any Image Model (RAIM) in the Wild Challenge, CVPR 2024 Workshop, https://arxiv.org/abs/2405.09923.

[3]. NTIRE 2024 Challenge on Short-form UGC Video Quality Assessment: Methods and Results, CVPR 2024 Workshop, https://arxiv.org/abs/2404.11313.

[4]. CVPR 2024 NTIRE真实场景图像复原RAIM挑战赛正式启动,OPPO TECH,https://mp.weixin.qq.com/s/_xdBDJXD33oErmBBQwrXCQ.

[5]. CVPR 2024 Workshop | 首届短视频质量评价学术竞赛已启动+大型数据集KVQ,快手音视频技术部,https://mp.weixin.qq.com/s/MEjCWPdFtPI3G2AcItHZ-g.

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论