今年 2 月,JPEG AI 国际标准发布,经过数年的研究,该标准旨在利用机器学习技术,在不降低感知质量的前提下,生成更小、更易于传输和存储的图像编解码器。
这一事件很少成为头条新闻的原因之一可能是,该公告的核心 PDF 文件(具有讽刺意味的是)无法通过 Arxiv 等免费访问门户网站获取。尽管如此,Arxiv 已经提出了多项研究,从多个方面探讨了 JPEG AI 的意义,包括该方法不常见的压缩伪影及其对取证的意义。

由于 JPEG AI 以模仿合成图像生成器的方式改变图像,现有的取证工具难以区分真实图像和虚假图像:
最近的一篇论文(2025 年 3 月)指出,经过 JPEG AI 压缩后,最先进的算法已无法可靠地将定位图中的真实内容与篡改区域区分开来。图2中左侧的源示例是经过篡改/伪造的图像,在标准取证技术下,被篡改的区域被清晰地划分出来(中间的图像)。然而,JPEG AI 压缩技术为伪造图像披上了一层可信的外衣(最右边的图像)。来源:https://arxiv.org/pdf/2412.03261
原因之一是 JPEG AI 使用的模型架构与取证工具旨在检测的生成系统所使用的模型架构类似:
因此,从科学技术的角度来看,这两种模型可能会产生一些相似的基本视觉特征。
量化
量化是这两种架构的共同点,在机器学习中,量化既被用作将连续数据转换为离散数据点的方法,也被用作一种优化技术,可以显著减小训练模型的文件大小(图像合成爱好者对笨重的官方模型发布与可在本地硬件上运行的社区量化版本之间的等待过程不会感到陌生)。
在此上下文中,量化是指将图像潜在表示中的连续值转换为固定的离散步长的过程。JPEG AI 使用此过程通过简化内部数值表示来减少存储或传输图像所需的数据量。
虽然量化使编码更加高效,但它也强加了类似于生成模型留下的伪影的结构规律——足够微妙以逃避感知,但却会破坏取证工具。
作为回应,新著作《JPEG AI 图像的三个取证线索》的作者提出了可解释的非神经技术,用于检测 JPEG AI 压缩;确定图像是否已被重新压缩;并区分压缩的真实图像和完全由 AI 生成的图像。
方法
色彩关联
本文提出了针对 JPEG AI 图像的三个“取证线索”:在 JPEG AI 的预处理步骤中引入的颜色通道相关性;在重复压缩过程中可测量的图像质量失真,揭示了重新压缩事件;以及潜在空间量化模式,有助于区分 JPEG AI 压缩的图像和 AI 模型生成的图像。
对于基于颜色相关性的方法,JPEG AI 的预处理流程在图像的颜色通道之间引入了统计依赖关系,从而创建了可以作为取证线索的签名。
JPEG AI 将 RGB 图像转换为YUV 颜色空间,并执行 4:2:0 色度子采样,即在压缩之前对色度通道进行下采样。此过程会导致红、绿、蓝通道的高频残差之间产生微妙的相关性——这种相关性在未压缩图像中并不存在,其强度也与传统 JPEG 压缩或合成图像生成器产生的相关性不同。
上面我们可以看到论文中的比较,以红色通道为例,说明了 JPEG AI 压缩如何改变图像中的颜色相关性。
面板 A 比较了未压缩的图像和 JPEG AI 压缩的图像,显示压缩显著增加了通道间的相关性;面板 B 分离了 JPEG AI 预处理(仅颜色转换和子采样)的效果,显示即使仅这一步也明显增加了相关性;面板 C 显示传统的 JPEG 压缩也略微增加了相关性,但程度不同;面板 D 检查了合成图像,Midjourney-V5 和 Adobe Firefly 显示了适度的相关性增加,而其他图像仍接近未压缩的水平。
率失真
率失真提示通过跟踪峰值信噪比(PSNR) 测量的图像质量在多次压缩过程中如何以可预测的模式下降来识别 JPEG AI 重新压缩。
研究认为,使用 JPEG AI 反复压缩图像会导致图像质量损失逐渐减小,但仍然可以测量,这可以通过 PSNR 量化,并且这种逐渐的退化构成了检测图像是否被重新压缩的取证线索的基础。
与传统 JPEG 不同,早期方法会跟踪特定图像块的变化,而 JPEG AI 由于其神经压缩架构,需要采用不同的方法;因此,作者提出监控比特率和峰值信噪比 (PSNR) 在连续压缩过程中的变化。每一轮压缩对图像的改变都比前一轮小,这种递减的变化(与比特率的关系图)可以揭示图像是否经历了多个压缩阶段:
图 4 展示了重复压缩如何影响不同编解码器的图像质量,展示了 JPEG AI 和 https://arxiv.org/pdf/1802.01436 上开发的神经编解码器的结果;两者均表现出每次额外压缩后 PSNR 都会稳步下降,即使在较低比特率下也是如此。相比之下,除非比特率很高,否则传统的 JPEG 压缩在多次压缩后都能保持相对稳定的质量。
在上图中,我们绘制了 JPEG AI、另一个基于 AI 的编解码器以及传统 JPEG 的码率失真曲线。我们发现 JPEG AI 和神经编解码器在所有比特率下都呈现出一致的峰值信噪比 (PSNR) 下降,而传统 JPEG 仅在更高的比特率下才出现明显的下降。这种行为提供了一个可量化的信号,可用于标记重新压缩的 JPEG AI 图像。
通过提取比特率和图像质量在多轮压缩过程中的变化情况,作者同样构建了一个签名,有助于标记图像是否已被重新压缩,从而为 JPEG AI 环境中提供了潜在的实际取证线索。
量化
正如我们之前所见,JPEG AI 提出的一个更具挑战性的取证问题是它与扩散模型生成的合成图像在视觉上的相似性。这两个系统都使用编码器-解码器架构,在压缩的潜在空间中处理图像,并且经常会留下细微的上采样伪影。
这些共同特征可能会使检测器感到困惑,即使是那些在 JPEG AI 图像上重新训练过的检测器也是如此。然而,一个关键的结构差异仍然存在:JPEG AI 应用了量化,这一步骤将潜在值四舍五入到离散级别以实现高效压缩,而生成模型通常不会这样做。
新论文利用这种区别设计了一种取证线索,可以间接检测量化的存在。该方法分析了图像的潜在表征如何响应舍入,假设如果图像已经被量化,其潜在结构将呈现出与舍入值可测量的对齐模式。
这些图案虽然肉眼不可见,但却能产生统计差异,有助于将压缩的真实图像与完全合成的图像区分开来。
以平均傅里叶光谱为例,JPEG AI 压缩图像以及由 Midjourney-V5 和 Stable Diffusion XL 等扩散模型生成的图像在频域中均呈现出规则的网格状图案——这些伪影通常与上采样有关。相比之下,真实图像则缺乏这些图案。这种光谱结构的重叠有助于解释为什么取证工具经常将压缩的真实图像与合成图像混淆。
重要的是,作者表明,该提示适用于不同的生成模型,并且即使压缩强度足以将潜在空间的整个部分清零,其仍然有效。相比之下,合成图像对这种舍入测试的响应要弱得多,这提供了一种区分两者的实用方法。
该结果旨在成为一个轻量级且可解释的工具,针对压缩和生成之间的核心差异,而不是依赖于脆弱的表面工件。
数据和测试
压缩
为了评估他们的色彩相关性线索是否能够可靠地检测 JPEG AI 压缩(即从未压缩源的第一次传递),作者在来自RAISE 数据集的高质量未压缩图像上对其进行了测试,使用 JPEG AI 参考实现以各种比特率压缩这些图像。
他们根据颜色通道相关性的统计模式(特别是每个通道中的残余噪声如何与其他通道对齐)训练了一个简单的随机森林,并将其与直接在图像像素上训练的ResNet50神经网络进行了比较。
表1:使用颜色相关特征对 JPEG AI 压缩进行检测的准确率,并比较了多种比特率下的检测准确率。该方法在较低比特率下最有效,此时压缩伪影更明显,并且与基线 ResNet50 模型相比,该方法对未知压缩级别表现出更好的泛化能力。
当测试数据与其训练条件紧密匹配时,ResNet50 实现了更高的准确率,但它难以在不同压缩级别上推广。基于相关性的方法虽然简单得多,但事实证明,在不同比特率下一致性更高,尤其是在较低压缩率下,JPEG AI 的预处理效果更佳。
这些结果表明,即使没有深度学习,也可以使用可解释和有弹性的统计线索来检测 JPEG AI 压缩。
再压缩
为了评估 JPEG AI 再压缩是否能被可靠地检测到,研究人员在一组以不同比特率压缩的图像上测试了速率失真线索——有些图像只压缩了一次,有些图像则使用 JPEG AI 压缩了第二次。
这种方法包括提取 17 维特征向量,以跟踪图像的比特率和 PSNR 在三次压缩过程中的变化情况。这个特征集捕捉了每一步的质量损失程度,以及潜在和超优先率的行为方式——这些都是传统的基于像素的方法无法轻松获取的指标。
研究人员根据这些特征训练了随机森林,并将其性能与根据图像补丁训练的 ResNet50 进行了比较:
使用率失真特征训练的随机森林,用于检测 JPEG AI 图像是否经过再压缩,其分类准确率结果如表2。该方法在初始压缩强度较高(即较低比特率)时表现最佳,并且始终优于基于像素的 ResNet50,尤其是在第二次压缩强度低于第一次压缩强度的情况下。
当初始压缩程度较高(即比特率较低)时,随机森林表现出显著效果,单次压缩和双次压缩图像之间差异明显。与之前的提示一样,ResNet50 迭代难以进行泛化,尤其是在训练期间未曾见过的压缩级别上进行测试时。
相比之下,率失真特征在各种场景下都保持稳定。值得注意的是,即使应用于不同的基于 AI 的编解码器,该提示仍然有效,这表明该方法可以推广到 JPEG AI 以外的领域。
JPEG AI 和合成图像
在最后一轮测试中,作者测试了基于量化的特征是否可以区分 JPEG AI 压缩图像和由 Midjourney、Stable Diffusion、DALL-E 2、Glide 和 Adobe Firefly 等模型生成的完全合成图像。
为此,研究人员使用了Synthbuster数据集的一个子集,将来自 RAISE 数据库的真实照片与一系列基于扩散和 GAN 的模型生成的图像混合在一起。
图6:Synthbuster 中的合成图像示例,使用受 RAISE-1k 数据集中自然照片启发的文本提示生成。这些图像采用各种扩散模型创建,其提示旨在生成逼真的内容和纹理,而非风格化或艺术化的渲染。来源:https://ieeexplore.ieee.org/document/10334046
真实图像使用 JPEG AI 在多个比特率级别上进行压缩,分类是一项双向任务:JPEG AI 与特定生成器,或特定比特率与Stable Diffusion XL。
量化特征(从潜在表征中提取的相关性)由固定的 256×256 区域计算得出,并输入随机森林分类器。作为基线,在相同数据的像素块上训练了 ResNet50。
在大多数情况下,基于量化的方法优于 ResNet50 基线,尤其是在压缩伪影较强的低比特率下。
作者指出:
基线 ResNet50 在 Glide 图像上表现最佳,准确率为 66.1%,但除此之外,其泛化能力不如量化特征。量化特征在各种压缩强度和生成器类型上均表现出良好的泛化能力。
“量化为零的系数的重要性体现在截断[特征]的非常可观的性能上,在许多情况下,其性能可与 ResNet50 分类器相媲美。
然而,使用未截断的全整数[向量]的量化特征仍然表现得更好。这些结果证实,量化后零的数量是区分AI压缩图像和AI生成图像的重要线索。
尽管如此,它也表明其他因素也起了作用。用于检测 JPEG AI 的全向量准确率在所有比特率下均超过 91.0%,并且压缩率越高,准确率就越高。
使用 UMAP 对特征空间进行投影,结果显示 JPEG AI 与合成图像之间存在明显分离,较低的比特率会增大类别之间的距离。Glide 是一个持续存在的异常值,其图像的聚类结果与 UMAP 不同,并且在所有测试生成器中检测准确率最低。

最后,作者评估了这些特征在典型后处理(例如 JPEG 重新压缩或下采样)下的保持情况。虽然性能会随着处理量增加而下降,但下降速度较为缓慢,这表明即使在性能下降的条件下,该方法仍具有一定的鲁棒性。
结论
JPEG AI 能否得到广泛采用尚无定论。首先,现有的基础设施债务足以给任何新的编解码器带来阻力;即使是像 AV1 这样拥有优良血统且价值得到广泛认可的编解码器,也很难取代长期以来的主流方法。
关于系统与人工智能生成器的潜在冲突,在后续系统中,有助于当前一代人工智能图像检测器的特征量化伪影可能会减少或最终被不同类型的痕迹所取代(假设人工智能生成器总是会留下取证残留物,但这并不确定)。
这意味着 JPEG AI 自身的量化特性,或许连同新论文中确定的其他线索,最终可能不会与最有效的新生成 AI 系统的取证线索相冲突。
然而,如果 JPEG AI 继续作为事实上的“AI 清洗”发挥作用,极大地模糊了真实图像与生成图像之间的区别,那么就很难提出令人信服的理由来支持它的应用。
作者:Martin Anderson ,机器学习作家,人体图像合成领域专家。
译自:https://www.unite.ai/jpeg-ai-blurs-the-line-between-real-and-synthetic/
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/57351.html