Deepgram 推出 Aura-2:专业且具备成本效益的企业级文本转语音模型

面向企业用例的语音 AI 平台 Deepgram 昨天发布了下一代文本到语音(TTS)模型Aura-2,该模型专为关键任务业务环境中的实时语音应用而设计。

Aura-2专为实现清晰度、一致性和低延迟性能而设计,并可通过云或企业本地API进行部署,使开发人员能够为整个企业的自动交互(包括客户支持、虚拟代理和人工智能驱动的助手)构建可扩展的仿人语音体验。

Aura-2基于 Deepgram Enterprise Runtime构建,该基础架构与公司的语音到文本(STT)和语音到语音(STS)功能的基础架构相同,可为企业提供部署和扩展生产级语音人工智能所需的控制、适应性和性能。借助 Aura-2,Deepgram 将其在企业语音技术领域的领先地位扩展到了 TTS,使企业能够大规模提供自然、反应迅速、上下文准确的对话。如今,超过20万名开发人员和1200家公司,包括财富500强企业以及Jack in the Box、Vapi和OneReach.ai等语音人工智能初创公司,都在使用Deepgram。

Deepgram 推出 Aura-2:专业且具备成本效益的企业级文本转语音模型
图 1:用户对企业用例的偏好(盲测)

Vapi 首席技术官 Nikhil Gupta 表示:“我们一直依赖 Deepgram 的语音识别技术来大规模支持实时语音交互,因此在同一企业级基础架构内部署 TTS 的机会极具吸引力。通过单一供应商提供 STT 和 TTS,可以显著降低集成的复杂性和延迟,为大规模构建对话式 AI 的团队带来更流畅的体验。”

Cognigy 人工智能转型高级副总裁 Thys Waanders 表示:“Aura-2 卓越的清晰度和自然度显著增强了我们的对话式人工智能解决方案,使客户互动更加顺畅、更具吸引力。Deepgram 能够大规模提供实时、特定领域的发音,确保我们满足企业联络中心的复杂需求,同时保持效率并降低成本。”

缩小差距:企业优化语音AI

在当今的 TTS 领域,以娱乐为中心的模型与企业级语音系统的运营需求之间存在巨大差距。虽然以娱乐为中心的 TTS 平台针对叙事、角色配音和情感表达进行了训练和优化,但在应用于企业用例时却显得力不从心。企业应用程序需要的不仅仅是自然的语音,它们需要特定领域的发音、专业的语调、一致的语境处理,以及可靠、经济高效且安全的运行能力,这通常发生在需要完全部署控制的环境中。

Aura-2 弥合了这一鸿沟,提供高质量、情境感知的语音,专为业务关键型环境所需的规模、精度和弹性而设计。与专注于娱乐、针对创意表达进行优化的系统不同,Aura-2 体现了企业语音 AI 的优先事项,在以下关键维度上带来优势:

  • 领域专属发音卓越:Aura-2 确保精准处理行业术语,无需特殊标注即可准确发音医疗保健术语、金融术语、产品名称和复杂数字。这种内置的精准度无需借助繁琐的发音词典或人工干预,确保在精准度至关重要的专业领域实现清晰的沟通。
  • 专业语音品质与自然度:Aura-2 拥有 40 多种涵盖美式英语和本地口音的独特语音,能够提供真实、符合商务需求的语音,避免了以娱乐为主的 TTS 中常见的夸张语调。企业可以选择与其品牌形象相符的统一语音角色,从“富有同理心和魅力”到“冷静专业”,在所有客户接触点上均能体现。更多语言支持正在开发中,以进一步扩大全球覆盖范围。
  • 情境感知交付:Aura-2 能够根据情境智能调整语速、停顿、语调和表达方式——无论是传递电话号码、处理支持升级,还是引导事务性互动。最终呈现流畅连贯的语音,音量均匀,吐字清晰。
  • 大规模实时性能:Aura-2 针对实际企业工作负载进行了优化,可提供低于 200 毫秒的首字节响应时间 (TTFB),实现超快速响应交互。它高效支持数千个并发请求,同时在从呼叫中心到虚拟助理等高容量部署中始终保持低延迟和高质量语音输出。对于对安全性或数据驻留有严格要求的团队,在本地或 VPC 中部署 Aura-2 不仅可以确保完全控制,还可以通过消除往返云端的次数来降低延迟。
  • 规模化成本效益:Aura-2 提供企业级语音服务,其透明的定价针对实际使用量进行了优化。每 1,000 个字符仅需 0.030 美元,与 ElevenLabs Turbo(0.050 美元)和 Cartesia Sonic(0.038 美元)等替代方案相比,Aura-2 可大幅节省成本。Deepgram 基于使用量的模式以单一价格包含所有 40 多种语音,无任何隐藏费用,并提供分级企业定价,从而显著降低大批量实施的成本。这种方法消除了质量/成本之间的权衡,在所有接触点上实现一致的语音体验,而无需为了控制成本而牺牲性能。

Deepgram 首席执行官 Scott Stephenson 表示:“我们的客户需要的不仅仅是悦耳的声音,他们还需要能够在专业环境中精准可靠地沟通的声音。Aura-2 在自然语音和企业级准确度之间实现了完美平衡,使企业能够打造真正提升客户参与度并保持运营效率的语音体验。”

适用于实时应用的企业级架构

Aura-2 由 Deepgram Enterprise Runtime (DER) 提供支持,这是一个定制的基础架构层,可运行 Deepgram 的所有语音模型。DER 专为企业级性能而设计,能够实时协调语音 AI,并具备生产规模部署所需的速度、可靠性和适应性。主要功能包括:

  • 自动模型自适应:通过高价值数据管理、合成数据生成和自动训练不断提高性能,使语音模型能够随着您的业务一起发展。
  • 模型热插拔:无需停机即可在生产中即时更改模型,支持实时个性化和快速迭代。
  • 极限压缩:专有无损压缩可在不影响质量的情况下显著降低计算负载和运营成本。
  • 灵活部署:支持公共云、私有云(VPC)和本地环境,为企业提供符合内部基础设施、合规政策和数据治理标准所需的控制力和灵活性。
  • 为实时而非回合制而构建:专为流畅、类似人类的对话而设计,具有中断处理和思路结束检测功能,支持动态、重叠的语音模式。

Aura-2 运行在 DER 之上,继承了专为关键任务性能而构建的企业级基础。这一架构优势意味着企业可以部署先进的 TTS 功能,同时保持 Deepgram 可信平台所秉持的安全性、可靠性和可扩展性运营标准。与仅限于云端部署的提供商不同,Deepgram 提供真正的部署灵活性——在云、VPC 和本地环境中实现均衡的性能,因此企业无需权衡利弊,即可满足安全性和基础设施需求。企业无需管理具有不同运营特性的独立系统,而是获得了专为生产环境设计的统一语音 AI 基础设施。

Deepgram 在 STT 领域久经考验的领导地位,使 Aura-2 在提供精准、可立即投入生产的 TTS 方面拥有显著优势。Aura-2 与 Nova-3(用于语音识别)和 Voice Agent API(用于对话式 AI)共用同一个企业运行时环境,从而受益于共享学习、统一部署和无缝的开发者体验。Deepgram 语音 AI 堆栈的深度集成,消除了通常因拼凑多家供应商的工具而产生的操作复杂性和调试挑战。

Deepgram 产品副总裁 Natalie Rutgers 表示:“我们多年来开发 Nova-3 和其他 STT 模型的经验,让我们对现实世界的语音模式有了深入的了解。借助 Enterprise Runtime,Aura-2 可以直接利用我们的声学模型和发音数据集,实时提供精准的、行业特定的语音合成。”

这种统一架构支持持续的跨模型学习,语音识别的改进会通过共享运行时自动增强语音合成。随着平台学习并适应您特定的行业术语和用户交互,它将孤立的语音组件转变为一个紧密结合的语音 AI 平台,并在每次交互中不断增强。企业将获得显著提升的性能:跨系统一致的发音、更低的端到端延迟以及实时的模型定制——所有这些都具有相同的平台可靠性,这使得 Deepgram 成为语音 AI 基础设施的重要力量。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/57455.html

(0)

相关推荐

发表回复

登录后才能评论