Deepgram 推出 Nova-3,为企业推出改进的基于 AI 的语音转录功能

2025年2月12日,企业用例语音 AI 平台 Deepgram 宣布推出迄今为止最先进的语音转文本(STT) 模型Nova-3。Nova -3 突破了 AI 驱动转录的界限,在具有挑战性的音频环境中提供无与伦比的准确性,同时提供灵活的自助式定制,以根据行业特定需求定制结果。

Deepgram的基础设施深受Twilio、Jack in the Box和Kore.ai等行业领导者的信赖,还包括强大的文本转语音(TTS) 和完整的语音转语音(STS) 功能,提供一套全面的云端或自托管 API,实现无缝语音 AI 集成。其全功能平台和高性能运行时包括强大的自动化和数据功能(例如合成数据生成和模型管理)以及模型热插拔和强大的集成,使开发人员能够高效地构建和扩展支持语音的应用程序。 Deepgram 拥有超过 450 家企业客户,为快速增长的企业语音 AI 市场提供支持。

Nova-3 扩展语音 AI 以适应更广泛的企业用例

Nova-3 超越了其前身的成功,专为实时用例而设计,在传统解决方案往往无法满足的动态环境中提供无与伦比的准确性和性能。与缺乏领域特定精度的通用模型不同,Nova-3 利用先进的潜在空间架构将复杂的语音模式编码为高效的表示。即使在嘈杂或特殊的环境中,这也能够实现卓越的转录准确性,从而提高生产力、客户满意度和成本效率。凭借其扩展的功能,Nova-3 现在可以为现实世界中的企业挑战提供更高的准确性,例如:

  • 恶劣的声学条件——在远距离、嘈杂和多说话人场景中准确转录语音,使其成为空中交通管制、免下车服务以及呼叫中心的理想选择。
  • 实时多语言支持——支持跨多种语言的实时转录(同类模型中首创),非常适合应急响应、全球客户服务和多语言操作。
  • 行业特定的准确性——识别医学和法律转录等专业领域的特定术语。
  • 精确数据处理——确保零售、银行和金融领域的准确数字识别,同时支持实时编辑敏感信息以确保合规性和数据隐私。

Deepgram 首席执行官 Scott Stephenson 表示:“Nova-3 代表着一次重大飞跃,它拓展了实时准确性的边界,同时再次降低了成本——这是企业语音转语音用例的两个关键要素。通过整合先进的架构增强功能和跨不同数据集的广泛训练,我们开发了一种模型,它不仅满足而且超越了各行各业客户不断变化的需求。”

Kore.ai 首席营收官 Peter Wulfraat 表示:“Kore.ai 的使命是帮助组织提供引人入胜的体验并通过先进的 AI 获取价值。通过与 Deepgram 合作,我们正在帮助企业呼叫中心从过时的系统过渡到现代的 AI 驱动解决方案,例如 AI for Service。一个典型的例子是与财富 500 强医疗保健公司合作,利用 Deepgram 的语音转文本 (STT) 和文本转语音 (TTS) API,用 AI 语音代理取代其传统的 IVR。”

Stream It 高级 AI 工程师 Bill French 表示:“Nova-3 能够通过即时配置对 ASR 模型进行微调。无需培训、测试或额外成本,即可让 Nova-3 具备对特定领域术语的敏锐感知能力。对于必须在语音应用中采用独特术语的解决方案而言,这是正确的架构。”

Gladly 工程副总裁 Matt Baker 表示:“Deepgram 的 Nova-3 模型在数据提取方面取得了显著的飞跃。增强的上下文信息使转录更具可操作性,将数据转化为有价值的见解。”

通过自助服务定制个性化语音 AI

Nova-3 是业界首个支持自助定制的语音 AI 模型,用户无需具备深厚的机器学习专业知识即可针对特定领域对模型进行微调。许多传统模型需要由专家主导的定制,这既昂贵又耗时,从而延迟部署并增加成本。通过添加 Keyterm Prompting,开发人员可以通过优化多达 100 个关键词来立即提高转录准确性,而无需等待大量的模型再训练或定制周期。这种灵活性可加速部署、提高准确性并降低成本,从而使企业能够快速从其语音 AI 解决方案中释放价值。

Talkatoo 首席技术官 Brendan Chan 表示:“Nova-3 的准确率大幅提升。之前的模型只能识别 10% 的关键兽医术语,但借助 Nova-3 和 Keyterm 提示,关键术语识别率提升了 625%。性能大幅提升,我们很高兴能将这一成果推广给我们的用户。”

卓越基准测试:Deepgram 扩大领先优势

Nova-3 继续为转录准确性树立新标准,大大拉大了其与竞争对手语音 AI 提供商之间的差距。Nova-3 在批量和流式传输用例中均优于竞争对手,其单词错误率 (WER) 始终较低,在包括多语言场景在内的真实音频环境中具有出色的性能。

Deepgram 推出 Nova-3,为企业推出改进的基于 AI 的语音转录功能
图 1 – Benchmark-Nova-3 预录精度(图片:Business Wire)

Nova-3 的 WER 为 5.26%,比排名第二的竞争对手高出 47.4%(WER 为 10%)。错误率的降低意味着医疗保健、法律和金融等需要高精度的行业能够提供更准确的转录。

Deepgram 推出 Nova-3,为企业推出改进的基于 AI 的语音转录功能
图2

在流式 WER 方面,Nova-3 以 6.84% 的 WER 领先,比排名第二的竞争对手高出 54.2%(14.92% WER)。这种改进的准确性可确保呼叫中心和虚拟助理等应用程序的实时、可靠转录,从而提升整体客户体验。

多语言方面

在多语言测试中,Nova-3 在七种语言中的表现优于 OpenAI 的 Whisper,在某些语言中可实现高达 8:1 的偏好比。Nova-3 先进的实时多语言对话转录使企业能够在全球范围内扩展,提供跨多种语言的可靠、准确的结果并增强国际客户参与度。

这些基准结果强调了 Deepgram 在转录准确性方面的持续领先地位,为依赖语音转文本和语音 AI 技术的企业带来了卓越的成果。

Nova-3 标志着一项重大进步

Nova-3 代表了人工智能驱动的语音转文本技术的突破,巩固了 Deepgram 在语音人工智能创新领域的领先地位,并帮助企业和开发者构建下一代企业语音人工智能应用。Deepgram 专注于持续改进模型和平台,确保用户始终能够获得最新的进展,从而最大限度地提高长期价值。该平台以较低的客户成本构建,提供成本效益和无缝更新,帮助企业在扩展时保持竞争力和面向未来。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/55822.html

(0)

相关推荐

发表回复

登录后才能评论