边缘 AI 面临的技术缺口

人工智能 (AI) 和机器学习 (ML) 的快速发展为边缘设备与嵌入式系统的创新注入了新动力。然而,要在资源受限的硬件上成功部署 ML 模型,须熟练掌握综合数据科学、ML 和专业嵌入式工程学科的边缘 AI 专业知识。从某种意义上说,在过去数十年中,嵌入式设计学科提供了大量以简单微控制器为基础、利用自研或商用实时操作系统构建的解决方案,而现在该学科正在转向借由 AI 汲取能量。

大多数希望能利用全新的 AI 和 ML 工作负载的边缘 AI 开发团队,正面临技术的缺口,因此难以对设备上的 AI 功能进行优化和加速。一些公司通过组建内部 AI/ML 团队来弥补这个缺口;一些公司则聘请专门的 ML 领导团队并积极收购初创公司,从而加速积累 AI 的专业资源。

这些做法虽取得了一定成效,但随着 ML 方法和模型愈加复杂,标准也在不断提高。我们可以预见,在不久的将来,诸如 ChatGPT 或 Gemini 的多种衍生产品将在小型嵌入式控制器和边缘 AI 上运行,通过实际应用带来更多益处。此外,产品上市进程也是开发团队面临的又一巨大压力。嵌入式工程团队可能需要数年时间才能完全“熟练掌握”关于 MLOps 的技能。即便到那时,他们仍需不断学习,因为边缘 MLOps 始终在不断发展演进。

边缘 AI 面临的技术缺口

哪些关键的技术缺口一直存在?有三个重要方面尤为突出:

  • 数据管理
  • 模型优化
  • 高效推理

Arm 作为高新技术的重要提供商,致力于不断扩展和推动 AI 和 ML 解决方案,旨在简化工程师和开发者的工作以提高效率,实现他们的 AI 畅想。我们进一步深入了解三大关键问题:

数据管理

对于开发和部署 ML 模型,有效管理数据至关重要,但这并非易事。其中包括从传感器中收集正确、无偏差的数据,准确一致地标注数据以用于训练,以及确保数据的隐私和信息安全。

在传统嵌入式设计领域,实现强大的端到端 ML 数据管理所需要的工具、基础设施和技术的维护是嵌入式团队面临的又一挑战。

例如,在硬件上定位并进行原型设计一直是一个繁琐、缓慢的过程。Arm 已采取措施来简化该设计流程,并通过 Arm 虚拟硬件 (Arm Virtual Hardware) 加快部署速度。Arm 虚拟硬件是一项基于云的服务,提供适用于 Arm 架构芯片的精确功能模型,使软件开发者无需物理硬件即可仿真基于 Arm 技术的物联网设备的行为。

ML 应用程序数据输入的复杂性,包括来自传感器的音频和其他形式的输入。由于传感器具备多样性的特点,我们必须时刻关注相关标准,以简化这些数据集的处理。

适用于传感器数据的新的 Arm Synchronous Data Streaming(同步数据流,SDS)框架可满足模型开发在标准化数据收集、标注和分配方面的需求。在开发过程中,该框架允许从目标硬件中(例如 MEMS 陀螺仪或麦克风)捕获物理传感器/音频数据流。该框架提供基于 Python 的实用程序,用于对捕获的数据流进行回放、可视化处理和分析。通过将 SDS 回放与 Arm 虚拟硬件相结合,可在仿真模型上自动测试算法,这对 CI/CD 工作流非常有益。通过与 Arm 紧密合作,TDK Qeexo 已在其 ML 平台 Qeexo AutoML 中增加对 SDS 框架的支持。

模型优化

AI 之旅以用例为出发点,需使用基于用例的数据。一旦确定了用例和数据集后,就可以使用各种方法来训练复杂的模型。过程中需要访问大型数据集并消耗大量计算资源。这意味着想在功耗受限的设备上运行 ML 工作负载,优化就至关重要。优化可通过多种形式实现。通过修整、量化和知识提炼等技术可以缩减  ML 模型的大小,同时减少对存储和内存的需求。

例如,Arm 与 NVIDIA 在 TAO 上的合作,是基于 TensorFlow 和 PyTorch 构建的低代码 AI 工具包,通过抽象化 AI 模型和深度学习框架的复杂性来简化和加速模型训练过程。

此外,Arm 模型优化工具包基于 Arm 庞大的全球生态系及其对底层硬件技术和系统设计要求的了解而构建,帮助开发团队实现了出色的优化效果,并带来宝贵的价值。

高效推理

在边缘设备中进行高效推理是真正的实战考验。边缘设备通常资源受限,因此在边缘部署模型时必须格外谨慎。虽然 CPU 可以处理一些工作负载,但新出现的专用工作负载往往需要异构计算解决方案来提供性能与处理效率。事实上,在硬件加速方面,许多嵌入式 SoC 都提供针对 ML 工作负载优化的加速器,如 DSP、TPU 和 NPU。

因此,在配备不同加速器的嵌入式设备上高效运行 ML 工作负载时,会涉及到使用如 Arm  Vela 等的编译器,以及如 CMSIS-NN 等的软件库进行大量调优。借助 Arm Vela 编译器,开发者可将适用于微控制器的 TensorFlow Lite 神经网络模型编译成优化版本,该版本可在包含 Arm Ethos-U NPU 的嵌入式系统上运行,用于加速各种 ML 工作负载。通过 Vela 编译器,用户可重写 Vela 配置文件,从而优化 Ethos-U 嵌入式系统的各种属性,如内存延迟和带宽。Edge Impulse、Nota.AI、Qeexo 和 Plumerai 等 Arm 的生态系统合作伙伴已将 Vela 编译器集成到他们的工具流中,以便他们的客户可以轻松使用搭载 Ethos-U 加速器的 Arm 平台。

技能提升势在必行

对于传统嵌入式设计和开发团队而言,实现强大的端到端 ML 数据管理所需的工具、基础设施和技术方面的维护给他们带来了更多的技术挑战。为了弥合技术缺口,我们需要将硬件供应商、AI/ML 专家和企业软件提供商的优势相结合,并采取一致的战略和统一的工具链。Arm 的产品、工具、资源及其生态系统为工程师们在技术能力上的提升奠定了坚实基础,并助力其解锁创新的 AI 应用场景。

* 本文首发 Arm 社区

作者:Arm 物联网事业部行业市场营销高级总监 Parag Beeraka

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论