随着多媒体应用的快速发展,屏幕内容图像(SCI)已在人们日常生活中频繁出现。但是显示设备和SCI之间经常发生分辨率不匹配,并且,SCI有着边缘薄而锐利等特点,与自然图像很不同。然而,大多数超分辨率方法是应用于自然图像的。因此,本文提出了一种针对SCI的超分辨率方法。本文提出了利用INR连续表示SCI的B样条纹理系数估计器(BTC),从低分辨率(LR)图像中预测B样条曲线的系数、节点和膨胀参数。然后,将查询点的坐标投影到2维B样条表示的空间中,并将其馈送到MLP。利用B样条基函数的正约束和紧支撑性,在SCI的不连续处减少了下冲/过冲带来的失真。
作者:Byeonghyun Pak 等
论文题目:B-spline Texture Coefficients Estimator for Screen Content Image Super-Resolution
论文链接:https://openaccess.thecvf.com/content/CVPR2023/html/Pak_B-Spline_Texture_Coefficients_Estimator_for_Screen_Content_Image_Super-Resolution_CVPR_2023_paper.html
内容整理:刘潮磊
相关工作
Implicit neural representation
核心思想:真实世界的物体可以视为一个坐标到像素值的连续函数,INR通过神经网络逼近这个连续函数。
上图为LIIF中的隐式神经表示方法,也是隐式神经表示的一般形式,其中:Data preparation:将数据预处理成高分辨率和低分辨率的图片。Training:低分辨率图片经过一个encoder,得到feature map,然后与高分辨率图像坐标(x,y)一起输入一个MLP预测高分辨率图像的像素值。
B-spline representation
一维B样条定义:
含义:P代表控制点;B代表基函数,这个基函数也可以理解为每个节点的权重(系数)。B样条以这样的节点加基函数的形式控制曲线的形状。
B样条广义形式:
c[t]:B样条系数;k[t]:B样条节点;d[t]:B样条膨胀。B样条广义形式与一般形式有所不同,但本质上也是通过节点和系数两个参量控制B样条曲线的形状。
问题表述
隐式神经表示
本文的隐式神经表示与LIIF中基本一致,都是通过双线性插值考虑四个最近邻像素来计算新像素的值。zt:LR图像经过encoder之后t处的潜在编码;Xt:t处的坐标;s:s代表了像素的形状信息,取值为2/r;r是图像放大率;t∈𝑁:代表进行双线性插值,考虑四个最近邻像素来计算新像素的值;wt:双线性插值的权重。
二元不均匀B样条
方法
框架
Step1(BTC):1.将LR图像通过encoder得到潜在编码z(论文中使用RDN作为encoder);2.用系数估计器、节点估计器,从z中得到B样条的C个系数和2个节点;3.用膨胀估计器,从s=2/r中得到B样条的膨胀d;4.由于系数和节点是由LR中的一个像素的z预测出的,而LR图像中的一个像素对应到HR中r×r的区域,因此,用最近邻空间插值来放大系数和节点。
Step2(B样条表示):根据Problem formulation中的二元不均匀B样条,将输入参数进行B样条表示。
Step3(推测查询点RGB值):利用Problem formulation中的隐式神经表示的解码器fθ(∙)得到查询点RGB值;最后,再将解码器得到的值和LR图像经双线性插值得到的值(长跳跃连接)相加,作为最终输出。(长跳跃连接是为了丰富高频分量并稳定收敛,因为方法本身倾向于预测低频信息,加入长跳跃连接之后就能避免只关注低频分量。)
B样条基函数形式
实验
与其他方法的对比
下图为场景文本识别结果,文章比较了Meta-SR、LIIF等方式的置信度。可以看出,BTC具有优势。
下表以PSNR为指标,对比几种超分辨率方法的结果。可以看出,BTC具有优势。
计算资源消耗对比
下表为计算资源消耗对比(内存占用和时间消耗)。可以看出,BTC占用内存较少,并且时间消耗较短。
消融实验
下表是消融实验结果,其中“-C”、“-K”、“-D”分别表示去除系数、节点、膨胀估计器之后的结果,“-L”表示去除长跳跃连接,“β2” “β4” 表示B样条基函数β次数取为2、4。可以看出,B样条参数估计器、长跳跃连接、基函数次数选为3的方法都能提高模型效果,其中节点估计器的影响远大于其他措施。
结论
本文提出了一种用于任意尺度SCI SR的B样条纹理系数估计器(BTC)。本文基于BTC的SR方法在屏幕内容数据集上取得了最佳性能,且模型较小。此外,该方法在恢复文本或图形的细边缘方面优于其他任意尺度SR方法。与利用傅立叶表示的LTE相比,BTC由于利用了有紧支撑和正约束特点的B样条,减少了由于过冲或下冲导致的伪影。此外,BTC显示出高效的内存消耗和计算时间,且SR结果通过场景文本识别网络被认定为具有最高的置信度。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。