Meta AI 推出 CLUE：旨在解决传统图像安全系统缺陷的 AI 框架

数字平台的快速发展使图像安全问题成为关注焦点。从露骨的内容到暴力的描述，有害图像给内容审核带来了巨大挑战。人工智能生成内容（AIGC）的激增加剧了这些挑战，因为先进的图像生成模型可以轻松创建不安全的视觉效果。当前的安全系统在很大程度上依赖于人工标注的数据集，这些数据集既昂贵又难以扩展。此外，这些系统往往难以适应不断变化和复杂的安全准则。有效的解决方案必须解决这些局限性，同时确保高效可靠的图像安全评估。

来自 Meta、罗格斯大学、Westlake University 和 UMass Amherst 的研究人员开发了 CLUE（Constitutional MLLM JUdgE），这是一个旨在解决传统图像安全系统缺陷的框架。CLUE 使用多模态大语言模型 (MLLM) 将主观安全规则转换为客观、可衡量的标准。该框架的主要特点包括：

Constitutional 客观化：将主观的安全规则转化为清晰、可操作的指南，以便 MLLM 更好地处理。
规则-图像相关性检查：利用 CLIP 通过评估图像和指南之间的相关性来有效地过滤不相关的规则。
前提条件提取：将复杂的规则分解为简化的前提条件链，以便于推理。
去偏标记概率分析：减轻语言先验和非中心图像区域造成的偏差，以提高客观性。
级联推理：对置信度较低的案例采用更深的思路链推理，以提高决策准确性。

技术细节和优势

CLUE 框架解决了 MLLM 在图像安全方面面临的关键挑战。通过客观化安全规则，该框架用精确的标准取代了模糊的指导方针，例如规定“不应描绘有明显血迹、预示即将死亡的人”。

使用 CLIP 进行相关性扫描可以简化流程，删除与检查图像无关的规则，从而减少计算负荷。这确保框架只关注相关规则，从而提高效率。

前提条件提取模块将复杂规则简化为逻辑组件，使 MLLM 能够更有效地推理。例如，“不应描绘任何身体着火的人”这样的规则被分解为“人可见”和“身体着火”等条件。

去偏标记概率分析是另一个值得注意的功能。通过比较有图像标记和没有图像标记的标记概率，可以识别并最小化偏差。这降低了发生错误的可能性，例如将背景元素与违规行为关联起来。

级联推理机制为低置信度场景提供了强大的后备方案。它使用逐步逻辑推理，确保即使对于边界情况也能做出准确评估，同时为决策提供详细的理由。

实验结果和见解

CLUE 的有效性已通过对各种 MLLM 架构（包括 InternVL2-76B、Qwen2-VL-7B-Instruct 和 LLaVA-v1.6-34B）进行大量测试得到验证。主要发现包括：

准确度和召回率：CLUE 使用 InternVL2-76B 实现了 95.9% 的召回率和 94.8% 的准确度，优于现有方法。
效率：相关性扫描模块过滤掉了67%的不相关规则，同时保留了96.6%的真实违反规则，显著提高了计算效率。
普遍性：与微调模型不同，CLUE 在不同的安全指南中表现良好，突显了其可扩展性。

洞察还强调了构成客观化和去偏标记概率分析的重要性。客观化规则的准确率达到 98.0%，而原始规则的准确率仅为 74.0%，这凸显了明确且可衡量的标准的价值。同样，去偏提高了整体判断准确性，InternVL2-8B-AWQ 模型的 F1 得分为 0.879。

结论

CLUE 提供了一种周到而有效的图像安全方法，通过利用 MLLM 解决了传统方法的局限性。通过将主观规则转化为客观标准、过滤不相关的规则并利用高级推理机制，CLUE 为内容审核提供了可靠且可扩展的解决方案。其提供高准确性和适应性的能力使其成为管理 AI 生成内容挑战的重大进步，为更安全的在线平台铺平了道路。

论文地址：https://arxiv.org/abs/2501.00192

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/55277.html