工程师使用古老的Blender开源图形系统,推动计算机视觉的发展

人工智能似乎非常适合创建大量图像集,用于训练自动驾驶汽车和其他机器识别环境,然而,当前的生成式人工智能系统存在一些缺点,可能会限制其使用。如今,普林斯顿大学的工程师们开发了一个软件系统,以克服这些限制,并快速创建图像集,使机器几乎可以适应任何视觉环境。

工程师使用古老的Blender开源图形系统,推动计算机视觉的发展

被称为Infinigen的新系统,依靠数学在三维空间中创建自然真实的物体和环境。Infinigen是一种过程生成器,在计算机科学中,这指的是一种基于自动化、由人设计的算法而不是耗费大量人工数据输入或现代人工智能技术所驱动的神经网络的程序来创建内容的工具。通过这种方式,这个新程序只需使用随机化的数学规则,便能生成无数个三维物体。

“Infinigen是一个用于构建无限、多样且真实的自然场景的动态程序,”普林斯顿大学计算机科学副教授邓佳表示,并且他也是一项详细介绍这个软件系统的新研究的高级作者。该论文在CVPR 2023会议上进行了演示。”

Infinigen的数学方法使其能够创建带标签的视觉数据,这在培训计算机视觉系统中非常必要,包括那些应用于家庭机器人和自动驾驶汽车的系统。由于Infinigen是通过程序生成每一幅图像的——首先创建一个3D世界,然后填充物体,再摆放相机拍摄照片——因此,Infinigen能够自动提供关于每张图像的详细标签,包括每个物体的类别和位置。

通过自动标注的图像可以训练机器人识别和定位物体,仅凭借图像输入。根据邓先生的说法,这种标注的视觉数据是现有人工智能图像生成器所无法实现的,因为这些程序使用深度神经网络生成图像,无法提取标签。

此外,Infinigen的用户可以对系统的设置进行精细化控制,例如精确调节光照和观察角度,并可以对系统进行微调,使图像更有用作训练数据。

除了生成由自然形状、大小、纹理和颜色的数字物体构成的虚拟世界外,Infinigen还拥有合成自然现象的能力,其中包括火、云、雨和雪的表现。

“我们预期Infinigen不仅将成为计算机视觉训练数据的宝库,还将在增强现实、虚拟现实、游戏开发、电影制作、3D打印以及内容创作等领域提供有价值的资源,” Deng说道。

为了建造Infinigen,普林斯顿的研究人员选择了Blender作为起始点。Blender是一个自由使用的开源图形系统,它可以追溯到上世纪90年代,其中包含了一系列预先构建好的软件工具。秉承Blender的精神,普林斯顿的研究人员已经以GPL兼容许可证的形式释放了Infinigen的代码,这意味着任何人都可以自由使用它。

通过极大扩展3D渲染的物体和景观菜单,Infinigen的另一个关键优势是它可以提升机器根据仅有的2D像素实现对复杂空间进行3D重建的能力。邓先生表示,尽管放弃真实世界图像,转而使用合成图像来开发在真实世界中移动的汽车和机器人可能看起来违反直觉,但真实图像数据集存在重要局限。

首先,引导机器人和智能汽车的计算机并不像人类一样感知图像和其他视觉对象。对于人类来说,看起来是三维的图像对于计算机来说只是一个二维的像素集合。要使机器人能够以三维方式感知图像,图像需要包含一种名为“三维真实地面”的指令。对于现有的二维图像来说,这很难做到,但对于像Infinigen这样的系统来说却很容易。

“合成的三维图像数据集显示出了巨大的初步潜力,”邓先生说道,“而我们开发出了无垠生成技术,以进一步实现这一潜力。”

对于智德集团(Infinigen)而言,普林斯顿的研究人员设计了一些子程序,被称为生成器,专门用于生成特定类型的数字对象,比如“鱼”或“山脉”。用户可以通过这些子程序来调整一系列参数,包括大小、质地、颜色和反射性。

“用户可以调整参数,根据他们特定的任务需求打造出所需的真实感或非真实感,”邓先生说道。”这种广泛性可以确保机器广泛地进行训练,以应对并驾驭各种可能遇到的环境。”

研究人员希望Infinigen能成为一款协作工具,让用户在其不断发展的过程中添加更多功能。

“我们的目标是使Infinigen的覆盖范围变得如此广泛,以至于不论任务是什么,该项目都成为计算机视觉训练数据的首选之地。”邓说道。“我们希望Infinigen成为一个协作的、社区驱动的努力,为众多用户提供一个有用的工具。”

—煤油灯科技victorlamp.com编译整理—

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论