AI Codec自2016年首次提出以来,众多海内外高校、企业研究院等机构对此展开了广泛研究。6年时间里,AI Codec 的SOTA方案的压缩性能已经超越了H.266(最新的传统Codec标准),展现了强大的技术潜力。但受限于计算复杂度、非标等原因,AI Codec在应用落地方面的案例却屈指可数。LiveVideoStackCon2022北京站邀请了来自双深科技的田康为大家分享基于双深科技的AI Image Codec技术落地探索经验。
文/田康
编辑/LiveVideoStack
原文/https://mp.weixin.qq.com/s/YgNKKh9v-IaH9Q3-4uoWbA
大家好,本次分享的主题为:AI Image Codec技术落地实践,主要将分三部分介绍我们在移动端方面取得的技术成果。第一部分介绍图像视频行业发展趋势和我们的理解;第二部分简单总结AI Codec发展;第三部分为重点,即AI Image Codec移动端落地实践。
-01-
图像视频行业发展趋势
-02-
AI Codec发展
接下来介绍AI Codec的发展,上图为传统和AI编解码发展历程的对比。可以看到,AI Codec压缩性能超越传统的H.264、H.265仅使用了传统方法1/6的发展时间。从1988年的H.261到2020年的H.266,相较于传统编解码器平均十年一次的迭代频率,AI编解码实现了飞速发展,从2016年端到端编码框架的提出到后续GAN、1857标准的应用,甚至是后续AIGC编码发展方向的出现,它在短时间内不断涌现可落地应用的各种新方法。
另一方面是AI芯片行业的发展同时为AI编解码提供了落地土壤。近年来GPT-4、AIGC的大规模使用在侧面推动了AI芯片业整体的快速发展,随着行业利好,高通等著名边缘芯片企业也在逐步启动对AI芯片的开发研究。其次是存算一体、类脑芯片、量子计算等未来技术为芯片算力发展带来了更好前景。
-03-
AI Image Codec移动端落地实践
接下来介绍我们关于AI Image Codec在移动端的落地实践,以互联网移动端CDN图片分发场景为应用场景,首先解释采用该场景的原因。
第一,当下大量社交、内容社区、电商APP均涉及该场景,中心端以一对多方式进行图片的分发,即使是抖音这种小视频平台也会涉及很多图片内容。同时由于CDN 80%左右的运营成本为流量带宽费用,因此它有很大的图片压缩诉求,优化图片压缩技术可以有效节约成本。第三是该场景为闭环场景,可以解决目前AI Codec非标的问题。最后是移动端的AI算力相对于其他物联网设备较强,可以实现更好的编解码效果。
以上为我们自研的AI图像编解码模型框架,它被称为ANF。不同于传统编解码器通过分块预测处理来进行数据压缩,ANF编解码器在接收图片后,通过神经网络提取高层像素规律作为数据量化和辅助熵模型概率预估的依据。数据最终传递至传输端进行熵解码和像素重建,向用户呈现图片。
我们在整个流程中针对AI训练设置了两个约束,第一是R-Loss,它代表比特流和超先验的存储信息量;第二是D-Loss,它用于衡量输入和输出图片之间的质量差,以上两个指标都需要保持尽量小。
针对该模型我们也提出了一些优化策略,如在特征提取阶段采用Neighbor-patch-attention策略来参考周边信息,提取更深层次特征。其次是在熵模型概率预估阶段: 采用Space Shuffle策略,提升概率估计准确度。第三是在超先验阶段,将局部感受野扩展到全局感受野来提取更准确的辅助信息。
右图为测试结果,其中红线代表ANF模型数据,可以看到相比于VVC等传统编码器,它的测试结果要超出0.5~0.7dB左右。
由于ANF模型的架构比较复杂,为了更好的在移动端上进行应用,我们对它进行了轻量化处理,在量化和部署加速方面做了相当多的工作。在画质损失尽量小的前提下尽量获取加速收益。
以上是轻量化后的ANF模型和其他编解码器使用LPIPS指标测试的对比结果,用于衡量ANF和其他编解码器之间的差距,该指标越小代表压缩后的图像和原图主观质量越接近。通过在多种场景下测试可以看到,ANF压缩的图片质量要明显优于其他编解码器。
在客观指标结果较好的基础上,我们组织对压缩图像进行了主观评测,选择了数十种不同场景,约两万张涵盖不同分辨率的图片作为数据集进行测试。以avif的压缩图像作为基准进行对比,按照三种不同比例将原始图片用ANF和avif编解码器进行压缩,将压缩后的图片从相同位置裁取100*100左右大小的块,与原图对应小块对比压缩画质,最后征集志愿者进行测评。
下表为评测结果,可以看到同体积下,主观选择ANF的比例(49.4%)明显高于AVIF(18.6%),说明ANF主观质量明显比AVIF好; 体积比为1:1.4时,结果与1:1时相同;体积比为1:2时,选择ANF和AVIF的次数相当,且有较大比例“不选择”,说明两者主观画质相当。
以上为同体积比下,两种编码器的测试效果图,可以看到ANF压缩图片的质量和原图更加接近。
以上为体积比为1:1.5时,两种编码器的测试效果图。可以看到ANF的图像细节效果仍然不错。
以上为编码吞吐对比结果,在同样的硬件条件下和传统编码器相比,ANF可获得10-30倍的编码加速。
以上为压缩对二次识别检测影响的测试结果,选取了精确率和召回率两个指标进行衡量。可以看到在低压缩比下,ANF压缩图片的检测精度略高于avif, 两项指标与原图相当;在高压缩比下,ANF压缩图片的检测精度明显高于avif, 与原图的差距保持在2-5%范围。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。