如何弥合人类和机器视觉之间的差距

麻省理工学院的研究人员发现,使用对抗训练来训练计算机视觉模型可以提高它们的感知直线度,使它们更类似于人类的视觉处理。感知直线度使模型能够更好地预测物体运动,从而有可能提高自动驾驶汽车的安全性。经过对抗训练的模型更加稳健,尽管图像略有变化,但仍能保持稳定的对象表示。研究人员旨在利用他们的发现来创建新的训练方案,并进一步研究为什么对抗性训练有助于模型模仿人类感知。

研究人员确定了一个属性,该属性可以帮助计算机视觉模型学习以更稳定、更可预测的方式来表示视觉世界。

麻省理工学院的研究人员发现,对抗训练提高了计算机视觉模型的感知直线度,使它们更类似于人类视觉处理,并能够更好地预测物体运动。

想象一下坐在公园的长椅上,看着有人漫步。虽然场景可能会随着人的行走而不断变化,但随着时间的推移,人脑可以将动态视觉信息转化为更稳定的表示。这种被称为感知矫正的能力可以帮助我们预测步行者的轨迹。

与人类不同,计算机视觉模型通常不会表现出直觉,因此它们学会以高度不可预测的方式表示视觉信息。但如果机器学习模型具有这种能力,它可能使它们能够更好地估计物体或人的移动方式。

麻省理工学院的研究人员发现,一种特定的训练方法可以帮助计算机视觉模型像人类一样学习更多的感知直接表征。培训涉及向机器学习模型展示数百万个示例,以便它可以学习一项任务。

研究人员发现,使用一种称为对抗训练的技术来训练计算机视觉模型,可以降低它们对添加到图像中的微小错误的反应,从而提高模型的感知直线度。

如何弥合人类和机器视觉之间的差距

麻省理工学院的研究人员发现,一种特定的训练技术可以使某些类型的计算机视觉模型能够学习更稳定、可预测的视觉表示,这与人类使用称为知觉矫正的生物学特性学习的视觉表示更相似。

该团队还发现,感知直线度会受到训练模型执行的任务的影响。被训练执行抽象任务(如图像分类)的模型比那些被训练执行更细粒度任务(如将图像中的每个像素分配给一个类别)的模型学习更多的感知直接表示。

例如,模型中的节点具有代表“狗”的内部激活,这允许模型在看到任何狗的图像时检测到狗。当图像发生微小变化时,直觉表示会保留更稳定的“狗”表示,这使它们更加健壮。

通过更好地了解计算机视觉中的感知直线度,研究人员希望发现可以帮助他们开发能够做出更准确预测的模型的见解。例如,此属性可能会提高使用计算机视觉模型预测行人、骑自行车者和其他车辆轨迹的自动驾驶汽车的安全性。

麻省理工学院博士后Vasha DuTell 说:“这里的一个重要信息是,从生物系统(例如人类视觉)中汲取灵感,既可以让您深入了解为什么某些事物会以它们的方式工作,也可以激发改进神经网络的想法” 。

如何弥合人类和机器视觉之间的差距

学习拉直

在阅读了纽约大学一组研究人员 2019 年关于人类感知直线度的论文后,DuTell、Harrington 和他们的同事想知道该属性是否也可用于计算机视觉模型。

他们着手确定不同类型的计算机视觉模型是否能矫正他们学习的视觉表示。他们为视频的每个模型提供帧,然后检查其学习过程中不同阶段的表示。

如果模型的表示在视频帧中以可预测的方式发生变化,则该模型正在拉直。最后,它的输出表示应该比输入表示更稳定。

“你可以将表示视为一条线,它开始时非常弯曲。拉直的模型可以从视频中提取曲线,并通过其处理步骤将其拉直,”DuTell 解释道。

他们测试的大多数模型都没有伸直。在少数这样做的人中,那些最有效拉直的人已经使用称为对抗训练的技术接受了分类任务的训练。

对抗训练涉及通过稍微改变每个像素来巧妙地修改图像。虽然人类不会注意到差异,但这些微小的变化可能会欺骗机器,从而对图像进行错误分类。对抗性训练使模型更加健壮,因此它不会被这些操作所欺骗。

Harrington 解释说,由于对抗性训练教会模型对图像的微小变化反应较少,这有助于它学习一种随着时间的推移更可预测的表示。

“人们已经有了这样的想法,即对抗性训练可能会帮助你让你的模型更像一个人,很有趣的是看到它可以转移到人们以前没有测试过的另一个属性上,”她说。

但研究人员发现,经过对抗训练的模型只有在接受广泛任务训练时才会学会拉直,比如将整个图像分类。负责分割的模型——将图像中的每个像素标记为某个类别——并没有变直,即使它们接受了对抗性训练。

如何弥合人类和机器视觉之间的差距

一致的分类

研究人员通过向他们展示视频来测试这些图像分类模型。他们发现,学习更多感知直接表示的模型倾向于更一致地正确分类视频中的对象。

“对我来说,令人惊奇的是,这些经过对抗训练的模型,甚至从未看过视频,也从未接受过时间数据的训练,仍然表现出一定程度的矫正,”DuTell 说。

她解释说,研究人员并不确切知道对抗性训练过程如何使计算机视觉模型变直,但他们的结果表明,更强的训练方案会使模型变直。

在这项工作的基础上,研究人员希望利用他们学到的知识来创建新的训练方案,明确赋予模型这一属性。他们还想更深入地研究对抗性训练,以了解为什么这个过程有助于模型矫正。

“从生物学的角度来看,对抗性训练不一定有意义。这不是人类认识世界的方式。关于为什么这种训练过程似乎可以帮助模型表现得更像人类,仍然存在很多问题,”Harrington 说。

“理解深度神经网络学习到的表征对于提高稳健性和泛化等特性至关重要,”达纳-法伯癌症研究所和哈佛医学院的助理教授 Bill Lotter 说,他没有参与这项研究。“哈林顿等人。对处理自然视频时计算机视觉模型的表示如何随时间变化进行广泛评估,表明这些轨迹的曲率因模型架构、训练属性和任务而有很大差异。这些发现可以为改进模型的开发提供信息,还可以提供对生物视觉处理的见解。”

“该论文证实,拉直自然视频是人类视觉系统显示的一种相当独特的特性。只有经过对抗训练的网络会显示它,这提供了与人类感知的另一个特征的有趣联系:它对各种图像转换的鲁棒性,无论是自然的还是人工的,”未参与这项研究的 DeepMind 研究科学家 Olivier Hénaff 说。

即使是经过对抗训练的场景分割模型也不会拉直他们的输入,这为未来的工作提出了重要的问题:人类是否以与计算机视觉模型相同的方式解析自然场景?如何在保持对空间细节敏感的同时表示和预测运动中物体的轨迹?

参考链接:https://scitechdaily.com/straightening-out-ai-how-mit-researchers-bridge-the-gap-between-human-and-machine-vision/

—煤油灯科技victorlamp.com编译整理—

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论