数字平台的快速发展使图像安全问题成为关注焦点。从露骨的内容到暴力的描述,有害图像给内容审核带来了巨大挑战。人工智能生成内容(AIGC)的激增加剧了这些挑战,因为先进的图像生成模型可以轻松创建不安全的视觉效果。当前的安全系统在很大程度上依赖于人工标注的数据集,这些数据集既昂贵又难以扩展。此外,这些系统往往难以适应不断变化和复杂的安全准则。有效的解决方案必须解决这些局限性,同时确保高效可靠的图像安全评估。
来自 Meta、罗格斯大学、Westlake University 和 UMass Amherst 的研究人员开发了 CLUE(Constitutional MLLM JUdgE),这是一个旨在解决传统图像安全系统缺陷的框架。CLUE 使用多模态大语言模型 (MLLM) 将主观安全规则转换为客观、可衡量的标准。该框架的主要特点包括:
- Constitutional 客观化:将主观的安全规则转化为清晰、可操作的指南,以便 MLLM 更好地处理。
- 规则-图像相关性检查:利用 CLIP 通过评估图像和指南之间的相关性来有效地过滤不相关的规则。
- 前提条件提取:将复杂的规则分解为简化的前提条件链,以便于推理。
- 去偏标记概率分析:减轻语言先验和非中心图像区域造成的偏差,以提高客观性。
- 级联推理:对置信度较低的案例采用更深的思路链推理,以提高决策准确性。
技术细节和优势
CLUE 框架解决了 MLLM 在图像安全方面面临的关键挑战。通过客观化安全规则,该框架用精确的标准取代了模糊的指导方针,例如规定“不应描绘有明显血迹、预示即将死亡的人”。
使用 CLIP 进行相关性扫描可以简化流程,删除与检查图像无关的规则,从而减少计算负荷。这确保框架只关注相关规则,从而提高效率。
前提条件提取模块将复杂规则简化为逻辑组件,使 MLLM 能够更有效地推理。例如,“不应描绘任何身体着火的人”这样的规则被分解为“人可见”和“身体着火”等条件。
去偏标记概率分析是另一个值得注意的功能。通过比较有图像标记和没有图像标记的标记概率,可以识别并最小化偏差。这降低了发生错误的可能性,例如将背景元素与违规行为关联起来。
级联推理机制为低置信度场景提供了强大的后备方案。它使用逐步逻辑推理,确保即使对于边界情况也能做出准确评估,同时为决策提供详细的理由。
实验结果和见解
CLUE 的有效性已通过对各种 MLLM 架构(包括 InternVL2-76B、Qwen2-VL-7B-Instruct 和 LLaVA-v1.6-34B)进行大量测试得到验证。主要发现包括:
- 准确度和召回率:CLUE 使用 InternVL2-76B 实现了 95.9% 的召回率和 94.8% 的准确度,优于现有方法。
- 效率:相关性扫描模块过滤掉了67%的不相关规则,同时保留了96.6%的真实违反规则,显著提高了计算效率。
- 普遍性:与微调模型不同,CLUE 在不同的安全指南中表现良好,突显了其可扩展性。
洞察还强调了构成客观化和去偏标记概率分析的重要性。客观化规则的准确率达到 98.0%,而原始规则的准确率仅为 74.0%,这凸显了明确且可衡量的标准的价值。同样,去偏提高了整体判断准确性,InternVL2-8B-AWQ 模型的 F1 得分为 0.879。
结论
CLUE 提供了一种周到而有效的图像安全方法,通过利用 MLLM 解决了传统方法的局限性。通过将主观规则转化为客观标准、过滤不相关的规则并利用高级推理机制,CLUE 为内容审核提供了可靠且可扩展的解决方案。其提供高准确性和适应性的能力使其成为管理 AI 生成内容挑战的重大进步,为更安全的在线平台铺平了道路。
论文地址:https://arxiv.org/abs/2501.00192
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/55277.html