Daily 与 NVIDIA 合作大规模简化语音 AI

本文将分享由 Pipecat 和 NVIDIA NIM 提供支持的全新NVIDIA AI 蓝图——对话式 AI 语音代理。该蓝图由 NVIDIA 合作开发,展示了企业如何使用 Pipecat 和 NVIDIA AI 构建最先进的代理体验。

Pipecat 是全球使用最广泛的实时和对话式 AI 代理框架,并且完全开源。Pipecat 由 Daily 以及庞大的开发者和贡献者社区维护。Pipecat 现在支持 NVIDIA NIM 微服务,并可与 NVIDIA AI Enterprise 一起用于生产部署。

NVIDIA 企业 AI 软件产品副总裁 Justin Boitano 表示:“NVIDIA 和 Daily 正在大规模增强语音 AI 代理的部署。此次合作使开发人员能够以前所未有的轻松和灵活性创建复杂的实时对话式 AI 体验。”

 Pipecat是一个开源的、与供应商无关的编排层,适用于语音和多模式 AI 用例,例如:

  • 客户服务代理
  • LLM-powered copilots
  • 虚拟视频化身
  • 设备和物联网接口
  • 人工智能电话接线员

Pipecat 包括多轮对话上下文管理、为帮助开发人员利用当今强大的 LLM 推理能力而构建的更高级别的抽象,以及用于函数调用和内置工具的事件桥。

NVIDIA NIM 是NVIDIA AI Enterprise软件平台的一部分,为开发 AI 驱动的企业应用程序和在生产中部署 AI 模型提供了一条简化的途径。

语音代理蓝图是一个参考工作流程,可帮助开发人员开始使用 Pipecat 和 NVIDIA NIM 微服务。开发人员可以轻松地在本地或云端部署此可配置的语音代理。启动蓝图以启动演示代理。您可以与代理讨论一些令人兴奋的 NVIDIA 新版本,它还可以在语音 AI 环境中演示工具的使用(函数调用)。

Pipecat 为开发人员提供关键实时 AI 需求的先进实现,例如短语端点(转弯检测)和逐向上下文管理。Pipecat 架构设计为模块化、可组合且超低延迟。

架构

以下是可配置语音代理蓝图的架构图:

Daily 与 NVIDIA 合作大规模简化语音 AI
NVIDIA AI 语音代理蓝图的架构

语音代理可以在现场、云端或本地运行,以进行开发和测试。

用户使用 Pipecat 的电话(PSTN 和 SIP)连接器或 Pipecat 的 Web、React、Android、iOS、Python 和 C++ 跨平台 SDK 与语音代理交谈。

为了提供自然的对话体验,代理必须以人类的对话速度做出响应,并自然地应对中断。架构图的用户输入块突出显示了提供快速自然对话行为的组件。Pipecat 的高级音频处理确保语音代理即使在用户处于嘈杂的环境中也能正常工作,例如机场或电视在背景中播放音频的房间。

对话体验的核心是 LLM NIM 微服务。Pipecat 框架让开发人员可以轻松更改一行代码来选择不同的 LLM。Pipecat 支持所有 LLM NIM 微服务,包括微调和自定义模型。

LLM 工具的使用对于对话式 AI 的生产至关重要。Pipecat 提供更高级别的抽象,可帮助开发人员在 LLM 函数调用和内置工具功能的基础上构建可靠的 AI 代理。函数调用可以在本地处理,也可以自动转换为网络请求。

语音生成由 NVIDIA FastPitch-HifiGAN NIM 微服务执行。Pipecat 还支持当今所有主要的 TTS 模型和服务。

在语音代理中,对话上下文管理器跟踪用户实际听到的内容并在上下文中仅包含该语音/文本至关重要。Pipecat 会自动跟踪音频播放以关联音频和文本时间戳以进行上下文管理。

可以为此语音代理启用的可选功能包括持久对话存储,以便用户会话可以跨越多个呼叫,以及与后端系统(专有客户基础设施)和外部 AI 服务(如托管 RAG 平台)的集成。

结论

Pipecat 与 NVIDIA AI Enterprise 平台和 NIM 微服务相结合,为语音和多模式对话式 AI 代理提供了全栈企业级、可配置、高度灵活的解决方案。

基于这一坚实的技术基础,开发人员可以立即获得:

  • 超过 40 种 AI 服务和 API
  • 低级对话式人工智能基础组件的先进实现,例如短语端点、中断处理和降噪
  • 对话式 AI 构建模块的先进实现,例如智能上下文管理、本地和网络函数调用以及 LLM 内置工具的处理程序
  • 电话(SIP 和 PSTN)、WebSocket 和 WebRTC 网络传输
  • 灵活的部署选项,包括本地和 VPC 架构
  • NVIDIA API 目录,其中包括适用于最新 AI 基础模型的 NVIDIA NIM 微服务和 NVIDIA AI 蓝图,以加速 AI 应用程序的开发和部署。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/55187.html

(0)

相关推荐

发表回复

登录后才能评论