北京广播电视台超高清系统中的超分应用

摘要:在国家推动超高清产业大背景下,北京广播电视台启动8K试验频道制播系统项目。为进一步提高HD存量素材的利用率,本文提出一套完整的超高清超分应用方案,重点分析了台内超高清系统中图像转码处理与人工智能超分技术的融合应用,解释了面向广电业务场景中超分应用的特性,并以实测数据展示了项目中超分算法模型的质量和效率。

作者:北京广播电视台 杨桂明
来源:选自2023年第1期《现代电视技术》

国家广播电视总局发布《关于进一步加快推进高清超高清电视发展的意见》,其中指出标清频道基本关停,高清电视成为电视基本播出模式,超高清电视频道和节目供给形成规模。

在此背景下,北京广播电视台建设了4K制播系统,随着北京2022年冬奥会的举办,北京广播电视台又正式启动8K试验频道制播系统项目,打造了全国首个面向广大观众提供8K服务的冬奥纪实8K超高清试验频道,陆续推出了“冬奥纪实”“奥运故事会”等精彩纪实节目。

制作这些精彩的超高清节目除了新拍摄外,还需大量历史影像素材,而这些素材大多由于拍摄年代久远、介质载体的限制,画面清晰度不尽如人意,各项技术指标无法满足现有超高清制播系统的制作要求。因此,为了呈现更多精彩超高清内容,借助超分的方法实现画面的上变换成为一种高效又经济的做法,但仍面临以下挑战:

◆广电历史素材存在隔行扫描与逐行扫描制式不同的情况,学术界的超分模型难以直接应用于广电业务场景,因此需要寻找适合的方案,既能解决制式问题,又能高质量实现画面的超分辨率重建;

◆需要与制播系统相结合,提出低成本高效率的超分处理方案。以4K超分8K为例,市面上的超分处理方式未融入超高清制播系统,几小时内容通常需要数台工作站在数天内不间断处理,所以急需设计一套应用于超高清制播系统的超分处理方案,大幅提升节目制作效率。

一、整体系统框架

8K试验频道制播系统是在台内4K生产制播系统基础上,进一步建设8K节目生产以及8K演播室播出,改造总编室适配8K业务,实现8K超高清网络化全流程制播业务。其中节目制作平台采用云计算、分布式与超高清视频技术相结合的方式,基于IaaS资源层、PaaS服务层和SaaS应用层的三层架构,融合支撑4K/8K业务,如图1所示。

图片

考虑到北京广播电视台4K和8K生产系统对于超高清素材的需求,大量HD50i等多制式存量素材应在制式和分辨率上实现向上变换,因此我们设计的广电业务场景的超分解决方案具备两个基础功能:去交错(i转p)和图像超分辨率重建。

二、技术背景及相关研究

面向超高清节目制作的相关超分算法,其目的是让这些低分辨率的视频能够在4K/8K高分辨率的屏幕上播放且无明显的质量损失。将低分辨率图像放大为高分辨率图像,一般是利用最近邻插值、双线性插值、双三线性插值等插值算法,按照一定权重计算周边像素点以获取新像素点数值,该种算法结构相对简单,但画面质量不够稳定,易产生局部马赛克等情况。

然而当卷积神经网络(CNN)在图像识别领域表现出强大的特征提取能力后,有研究者将其应用在图像超分领域,提出了超分辨率卷积神经网络(SRCNN),发现可以取得超越传统插值算法的效果,大量基于神经网络的超分算法在CVPR上不断提出,但仍存在卷积神经网络因卷积层过多导致的梯度爆炸问题。

进一步的,随着残差神经网络的提出,解决了卷积神经网络的梯度爆炸问题,从此可以通过更深的网络结构获得更强的特征提取能力,故而有研究者探索其在图像超分领域的应用,提出了SRResNet、EDSR等图像超分神经网络。EDVR提出了级联的金字塔对齐模块以及时空注意力融合模块,使用了40个以上的残差块,取得了图像领域的顶级赛事NTIRE19 Challenge的冠军,是学界最先进的图像超分算法之一。

图片

在广电领域的历史素材超分辨率应用中,许多素材还存在按照隔行扫描(i)进行采集的情况,直接将这些素材输入超分网络中,会产生伪影、模糊、失真等现象,因此需要先进行去交错处理。

当前学术界及业界各种去交错技术通常被分为场间去交错和场内去交错。场内去交错算法有行平均、线平均等方式,其主要优点是对视频运动帧产生的伪影非常少,但由于只使用当前场信息进行估计,会降低垂直分辨率;场间去交错方法利用相邻帧的信息来估计缺失场的值,包括运动自适应去交错、运动补偿去交错等传统方法,当画面没有大幅度移动时,这种方法能够拥有最好的去交错效果,但画面运动幅度较大时,会产生严重的伪影。

深度学习的出现使得神经网络可通过大批量的样本训练来学习相邻帧信息,应用在去交错上可以得到较好的画面质量,并有效降低伪影出现的概率,因此,为保证画面质量,本文决定采用基于深度卷积神经网络的场间视频去交错方法。

三、超分模块

面对北京广播电视台超高清系统有着去交错、图像超分辨率重建等多项需求,项目建设过程中自主研发了适用于广电业务场景的超分模块,该模块的综合性能需达到学界前沿算法EDVR的同一水平。

通过HD标准测试序列和一张NVIDIA TITAN 24G显卡对EDVR进行测试,测试结果如表1所示,参考该测试结果,制定研究目标如下:研究的算法在去交错任务中要接近45db PSNR,在去交错+超分任务中要接近42db PSNR,同时,预测速度要满足广播级视频播放的实时性要求。

图片

1. 去交错

对于去交错任务,设计了深度神经网络以利用相邻帧之间的信息来重建缺失场,具体流程如下:首先将高清50i的视频帧图像转成场图像,每4张场图像为一批输入到网络中;其次通过浅层特征提取模块将4张场图像的共性特征提取出来;再其次利用残差特征提取模块对每张场图像深度提取其专有特征;再次将每张场图像的专有特征进行交互以让网络学习帧间信息;最后将共性特征与专有特征进行融合输入到重建模块中将图像中缺失的场恢复,生成4张完成图像,按此流程即可得到高清50p视频。

采用高清50i标准测试序列对去交错网络进行测试,测试结果如表2所示。从中可以看出去交错网络在图像质量上完全达到了预期目标,并且显存只占用4GB,对计算资源要求较低。此外,在单卡预测速度上达到36.33FPS,这意味着只需要双卡即可满足专业媒体的实时性要求。因此,将该网络作为去交错任务部署的算法网络。

图片

2. 图像超分辨率重建

为了实现高效且高质量的图像超分辨率重建,基于网络剪枝的思想,借鉴SESR超分网络,设计了一个ISESR图像超分神经网络。

SESR由多个可折叠模块、长短残差连接构成。可折叠模块在训练时是带短残差连接的多个线性模块,每个线性模块含有多个卷积层,因为其中间没有线性激活层,所以在推理阶段可以将其合并为一个卷积层。借助该特性,SESR可以在训练阶段训练一个参数量巨大的网络,而在推理阶段折叠为高效网络。这是一种简单有效的过参数化方案,将其与残差组合可以极大提升网络的收敛速度并且改善图像质量。

SESR网络在推理阶段会被折叠为m+2个卷积层加两个全局跳跃连接的网络,这样大幅减少了网络训练以及推理的计算量,但是为进一步满足广电业务的实时性要求,考虑对于已训练好的网络进行剪枝以提高预测速度。考虑到第一个和最后一个卷积层是不可更改的,因此以中间m个卷积层为目标进行剪枝。

由于最后一层的输出可被看作m个卷积层的最终输出,以该输出结果作为标准输出,计算其余m-1个卷积层的输入与标准输出的相似度。因为每个卷积层相较于上一个卷积层的相似度上升幅度不是相同的,故在剪枝过程中将相似度提升幅度作为评价卷积层对网络的贡献度,提升幅度越大说明该卷积层越重要,提升幅度越小表示去除该层对网络结果的影响也就越小。

在得到每个卷积层对网络的贡献度后,设置剪枝阈值,将贡献度低于阈值的卷积层去除,最终得到具有n+2个卷积层的改进SESR(n<<m),即ISESR网络,具体流程如图3所示。

图片

为评估ISESR网络的有效性,对于标准测试序列中的4K图像素材,采用EDVR以及ISESR基于一张NVIDIA RTX TAITAN 24G显卡进行图像超分辨率重建,对各自生成的8K图像的图像质量、预测速度以及显存占用进行多方面对比。

表3展示了ISESR的测试结果,结果表明ISESR生成的8K图像的质量接近EDVR。此外,ISESR的预测速度能够在单卡只需4G显存便达到18.61FPS,若是集成到四卡服务器中,能获得70FPS以上的预测速度。值得注意的是,该算法不仅可以完成4K转8K的超分任务,还可以完成高清转4K、高清转8K等多项超分任务。

图片

3. 高清50i转4K 50p

在实际的超高清系统应用中,最频繁的业务需求是高清50i转4K 50p,即为去交错+超分任务。为完成该任务,将之前研究的去交错和超分算法组合使用,首先利用去交错网络,将高清50i图像转为高清50p图像,再使用ISESR将高清50p图像转为4K 50p图像。然而采用组合方案生成的图像,其PSNR只有39.1743dB,低于预期目标,原因可能是两个算法都存在误差,将任务分为两个阶段完成造成了误差的累积从而难以获得较好的图像质量。

考虑到组合方案在图像质量上不能达到预期目标,且采用两个神经网络过于复杂可能会影响到预测速度,因此设计了一个端到端的去交错+超分网络。该网络基于去交错网络,对补场操作之前的去交错特征图利用上采样模块进行图像超分辨率重建,完成重建后进行补场输出4个完整图像。

采用高清50i标准测试序列对EDVR和端到端网络进行测试,表4展示了测试结果。从表中可以看出该网络能获得与EDVR相近的图像质量。

图片

此外,端到端网络的预测速度比EDVR快了数十倍,实现了单卡预测速度23.20FPS,预计在四卡服务器上预测速度可达到80FPS以上,完全满足广播级视频播放的实时性要求,并且相比EDVR对计算资源要求更低,在综合性能上更为出色。最终选择端到端部署方式实现去交错+超分任务。

将端到端网络与第三方超分方案在高清50i标准测试序列进行对比,结果如图4、图5、图6所示。在字幕素材中,与原图相比,超分后的字幕明显比较清晰,也没有重影,第三方使用的是通用去交错算法YADIF,它对每个场图像进行补场,没有利用帧间信息,且不能针对应用场景进行针对性处理,因而出现了毛刺(见“着”字),并且具有闪动现象。而端到端网络是对相邻4个场图像一起补场,有效利用了帧间信息,且基于神经网络的特性可对应用场景进行单独训练,实现高质量去交错效果,所以字幕边缘平整,视频播放时不会闪动。

图片

在街景素材中,输入高清图像,可以看到第三方生成的4K图片,其保真度不够,建筑细节混乱,出现了类似二维码的纹理,而端到端网络则较好地保留了建筑细节。

图片

在微笑素材中,输入含有噪点的高清图像,超分后的4K图像均没有噪点,但具有去噪功能的第三方过于强调去噪效果导致图片中人物的皮肤细节缺失,而端到端网络则在完成去噪的情况下保留了人物的皮肤细节,得到了具有高保真度的4K图像。综合三组素材对比效果图,可以明显发现端到端网络在面对各种复杂场景且具有噪声等不良状态的图片下都能给出高质量的超分图像,满足广电业务对于模型泛化性的高要求。

图片

综上所述,北京广播电视台超高清系统中的四卡服务器中部署了超分模块,该模块包括三项功能,去交错、超分以及去交错+超分,分别应对实际业务场景中的高清50i转高清50p、高清50p转4K/8K 50p、高清50i转4K/8K 50p等多项需求。多项实验结果均表明三项功能可以给出具有理想质量的图像,且利用四卡服务器的算力,三项功能的速度均能达到50FPS以上,契合广播级视频播放的实时性要求。此外,将服务器算力扩展到8卡,该超分模块可以覆盖我国国标对超高清电视50、100、120的高帧数要求。

四、总结

本文以北京广播电视台超高清系统建设项目为例,具体分析了如何利用超分算法对电视台存量高清HD视频进行去交错和上变换处理,为我国其他电视台进行超高清系统建设中的超分应用落地提供了一些参考。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论