今年的诺贝尔物理学奖获得者、“AI教父”辛顿(Geoffrey E. Hinton)在得知获奖之后提出警告,人工智能最终有可能反噬人类。未成年人就是高风险群体之一。他们的心理往往较为脆弱,不少人会面临孤立、缺乏自信、沟通障碍、抑郁症等社交挑战。
生成式人工智能给未成年人的学习和生活带来了便利,在提升未成年人学习效率、提供个性化教育内容、提高创新能力等方面具有巨大潜力,但未成年人由于心智尚未完全成熟,容易受到外界信息的影响,特别是情绪和心理上的干预,当生成式人工智能在教育学习、休闲娱乐、社交等多类场景广泛落地应用,青少年与其互动过程中,面临着不可预测的风险和挑战,如前段时间引发全球关注的Character.AI卷入14岁少年自杀案。
暗处未知的礁石,未成年人面临的AIGC内容风险
生成式AI在技术上是一个复杂的多层网络系统,模型的权重和参数在对话生成中起到了至关重要的作用。每一次的对话都是基于之前的上下文和大量的语言训练数据进行推演和生成的,这就使得生成式AI的回答具有不可预测性。以下是在AI文生文、文生图/视频场景下,未成年人可能会面临的风险内容:
1. 有害内容污染
在文生图/视频场景,可能会生成包含暴力、色情、恐怖、血腥等有害内容。未成年人接触到这些内容,可能会导致心理和行为上的模仿,影响其身心健康发展,甚至引发自杀自残及犯罪行为。 在文生文问答场景中,关于生理科普和色情描述的尺度把控不好,亦会给未成年人带来不良影响
2. 不良价值观误导
一些 AI 生成的内容可能过度强调物质享受、功利主义、拜金主义、极端个人主义等价值观,使未成年人受到不良影响,形成错误的人生观和价值观,过于追求物质利益和个人享受,忽视精神追求和社会责任。
3. 虚假信息风险
(1)误导认知:生成式 AI 能够生成大量看似真实的文本、图像、视频等内容,未成年人缺乏足够的辨别能力,可能会误将虚假信息当作真实知识来学习和接受,从而影响其对客观世界的认知,扭曲价值观。例如,AI 生成的虚假历史事件或人物故事,可能会让未成年人形成错误的历史观。(2)扩散传播:未成年人可能在不知情的情况下,将 AI 生成的虚假内容进行传播,造成虚假信息的扩散,引发社会恐慌或不良影响 。比如在社交媒体上分享 AI 编造的谣言、假新闻等。
4. 负面情绪回应偏差
AI 产品虽然能够模拟情感表达,但并不能真正理解和感受情感。当未成年用户在与AI对话中表达出负面情绪时,模型可能生成消极的回应,甚至进一步强化用户的负面情绪。对于青少年来说,这种“共情”回应可能导致严重的心理问题,甚至引发自残或自杀等极端行为。
5. 隐私与个人信息泄露风险
许多 AI 产品在使用过程中会收集用户的大量数据,包括个人信息、兴趣爱好、行为习惯等。未成年人在使用这些产品时,可能会在不经意间透露过多个人信息,而这些信息一旦被泄露或滥用,可能会给他们带来诸多麻烦,如遭受网络欺凌、诈骗等 。
面对未成年人可能遇到的这些风险内容侵害,业内相关人士就人工智能平台责任的细化进一步提出:针对未成年人等心理脆弱群体,平台应该制定更高的安全标准、持续监控人工智能与未成年人用户的互动,以防止精神控制或其他伤害出现;产品在发布之前就要经过充分测试、设置预防措施。
监管层面的《生成式人工智能服务管理暂行办法》 ,也明确指出生成式AI在为未成年人提供服务时需要进行严格管理,防止未成年人接触到不适当的内容。该暂行管理办法提出了生成式人工智能的开发和使用必须遵循的具体原则,包括对生成内容的安全性要求、对未成年人使用的限制以及对提供者的责任追究。
为了更好发挥互联网积极作用,营造良好网络环境,引导未成年人科学、文明、安全、合理使用网络,预防和干预未成年人沉迷网络,近期国家互联网信息办公室又发布了《移动互联网未成年人模式建设指南》,为平台加强未成年人内容保护工作提供了具体指引。
监管政策虽然日益完善,但在实际操作中,内容风险持续演变,这些监管措施在实时监控生成内容和应对潜在风险方面存在巨大挑战。因此,针对生成式AI在未成年人保护方面存在的问题,应从技术改进和政策监管两方面入手,确保生成式AI在服务过程中能够对未成年人起到保护作用,而非成为潜在的威胁。
未成年人AIGC内容防护方案,守护未成年人身心健康
数美科技在未成年人内容风控领域,积累了丰富的实践经验,对未成年人用户行为习惯有着深入研究,结合生成式大模型内容安全风险的新特点与新挑战,打造了未成年人AIGC内容防护方案,可在识别未成年人基础上,深入理解复杂语义,防御风险内容,助力平台构建未成年人健康内容生态,护航未成年人健康成长。
1.熟谙未成年人用户语言及行为习惯,精准识别未成年人
目前,大多数生成式AI产品,用户注册账号只需要手机号和验证码二要素,无法对未成年人用户进行区隔,因此在面对未成年用户特殊的内容安全要求时,难以做到针对性的匹配相关策略。数美科技基于未成年内容风控的经验积累,能够从账号与AI交互中,输入的文本、图片、语音等内容中精准捕捉未成年人特征,判断账号使用者是否为未成年人,进而采取对应的内容风控策略。
文本特征:针对未成年的交互内容,可以通过分析语言习惯、用词特点等方式以及NLP语义理解,判断出用户是未成年人或疑似未成年人。举个例子,如果某用户在输入中提到“我十二岁”、“还没写完作业”、“明天放学上线”“上课,下课”这类内容,数美就能够对此进行语义分析,判断这个账号的真实使用者有多大可能性是未成年人。数美科技还会持续对海量未成年人文本数据进行学习和训练,不断迭代未成年人文本识别模型,从而做到更加精准的未成年人判断。
语音特征:除了文字,语音也是重要的交流媒介。在多模态产品中,尤其是AI陪伴类应用,语音是直接、高效且感受更加真实的交流方式。声音是未成年人与成年人的一大不同之处。数美科技通过解析用户交流中产生的音频内容,对用户的音色进行声学特征识别,未成年人的嗓音往往更加稚嫩,声调更高;同时将用户的音频内容转换成文本,对其进行语义分析,输出“未成年人”和“疑似未成年人”标签。
人像特征:用户的外貌特征是判断其是否为未成年人最直观的体现。数美采用基于深度学习的图片识别技术,构建了强大的图片识别引擎,精准识别用户输入的人脸、人体等图片,判断出是否属于未成年人特征,并可根据图片特征细化出对未成年人的年龄判断,极大提升未成年人账号识别准确度。
2. 深入理解复杂内容的“玄外之音”,规避不良内容
在识别出未成年人账号的基础上,生成式AI需要具备更强的内容过滤和情感识别能力。大模型本身在生成内容时,缺乏对具体情感和用户心理状态的敏感性。在青少年用户的对话场景中,对用户输入内容进行情感倾向分析,从而在生成可能具有消极影响的回答之前进行有效干预。这样的技术措施可以帮助AI及时响应潜在的危险信号,避免生成对未成年人心理健康不利的内容。
(1)200+未成年人风险标签,精准定义风险内容定义风险是防御风险的第一步。
数美现在已经建立了四级内容标签体系,覆盖文本、视觉、音频多模态内容的1800+个细化内容标签,未成年相关的风险标签细化到200+个。
一级标签是风险大类别,如违禁,色情等,二三级标签主要是对对象和主题的分类,如霸凌——霸凌意图、霸凌指令、霸凌描述等,四级标签是对内容意图和观点的分类,如未成年人霸凌标签中要分析是否肯定霸凌价值、表达霸凌意愿、怂恿他人霸凌等意图和观点,这套标签体系对于未成年人相关的风险内容可以做到更精准的定义,助力实现更高效、更精细化的复杂内容识别。
(2)强大的语义理解能力,识别内容背后的意图和观点
- 上下文语义理解:在未成年人用户相关的风险识别中,语义理解能力至关重要,首先要基于上下文去做对象和主题的识别,尤其在识别敏感对象或主题时,必须基于上下文进行,以区分真实情况和虚构或历史情境。比如在提到“死亡游戏”时,需要判断是客观陈述电影,还是有其他负面倾向都要能识别出来。
- 意图和观点的细化:从对象和主题的识别扩展到意图和观点的识别。包括对人物、违禁品、违法行为等类别的细致划分。对于违禁品类,需要进一步分析其背后的意图,是了解学习知识,还是在涉及买卖、运输或教唆诱导他人参与。对于人物类,还需识别如辱骂、诋毁、戏谑、轻浮、讽刺等不同态度和表达方式。
- 多模型策略:不依赖单一大模型识别所有风险,而是采用多个模型针对不同领域识别风险,如对象识别模型、观点识别模型等。
(3)全面准确的敏感问题知识库,保障回答内容安全可靠
未成年人由于心智尚未完全成熟,容易受到外界信息的影响,特别是情绪和心理上的干预,且容易对生成内容产生信任。这使得生成式AI在与未成年人互动时,尤其需要关注对话内容的安全性和心理引导的正确性。
在数美的AIGC内容风控方案中,如果是情感宣泄及心理疏导的场景,未成年用户输入内容中表达出负面极端、自杀自残、霸凌等涉及人身伤害等问题,数美将这类问题会定义为“正向引导回答的问题”,是要去正向引导他应该咨询心理医生或者与家人倾诉等。 针对这类问题,数美的知识库或安全模型可以提供代答服务,以保障未成年人接触的内容是安全、正向积极的。
目前,数美建立的RAG可信安全知识库已经扩充到100多万组QA对,并在服务中根据用户的输入内容以及舆情时政等信息,持续迭代更新,确保知识库内容的准确性和适用性,充分满足大模型敏感问题代答的需求。
生成式AI虽然具备强大的语言生成能力,但其本质上仍然是一个工具,而非有意识的思维体。生成式AI的发展不应只追求技术上的突破,更应注重与社会责任的紧密结合,确保技术不会对未成年人造成负面影响。数美科技作为AI风控厂商,持续通过助力大模型厂商完善技术的安全性,护航未成年人在 AIGC 时代健康成长。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。